50億海量數(shù)據(jù)如何高效存儲(chǔ)和分析?
華為云數(shù)據(jù)庫(kù)GaussDB (for Cassandra) 3個(gè)秘訣搞定
當(dāng)下,信息社會(huì)正在從互聯(lián)網(wǎng)時(shí)代走向物聯(lián)網(wǎng)時(shí)代,信息交互變得更加龐雜、高效和智能。對(duì)于互聯(lián)網(wǎng)公司和IOT企業(yè)來(lái)說(shuō),既是機(jī)遇,也是挑戰(zhàn)。因?yàn)?,企業(yè)不可避免的要面對(duì)數(shù)據(jù)量劇增帶來(lái)的一系列問題:如何高效存儲(chǔ)和擴(kuò)容,如何在對(duì)原有業(yè)務(wù)改動(dòng)最小的情況下做到智能化和實(shí)時(shí)分析。
針對(duì)挑戰(zhàn),華為云GaussDB (for Cassandra)為客戶提供了強(qiáng)擴(kuò)展、高存儲(chǔ)、高效導(dǎo)入/導(dǎo)出和實(shí)時(shí)分析等一系列能力,并成功服務(wù)了眾多互聯(lián)網(wǎng)公司和IOT企業(yè),獲得了客戶的高度認(rèn)可和支持。本文將以其中一個(gè)客戶業(yè)務(wù)的痛點(diǎn)問題舉例,聊聊高效存儲(chǔ)和實(shí)時(shí)分析的3個(gè)秘訣。
海量存儲(chǔ),PB級(jí)無(wú)感擴(kuò)展
該用戶在線下本地化部署使用數(shù)據(jù)庫(kù)或者使用其他的存儲(chǔ)為云盤的數(shù)據(jù)庫(kù)時(shí),常常需要在容量達(dá)到閾值時(shí),提前規(guī)劃和申購(gòu)存儲(chǔ)資源,可能還需要連帶擴(kuò)容不必要的計(jì)算資源。而使用GaussDB (for Cassandra)之后,便再無(wú)此煩惱。GaussDB (for Cassandra)采用存算分離架構(gòu),可單獨(dú)擴(kuò)展存儲(chǔ),高效擴(kuò)容,業(yè)務(wù)無(wú)感,最高可擴(kuò)展到PB級(jí)。
此外,客戶為了做大數(shù)據(jù)分析,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)再寫入一份到HDFS中,供MapReduce和Spark分析,同時(shí)需要維護(hù)兩套資源,維護(hù)和資源成本成為了痛點(diǎn)。而客戶使用GaussDB (for Cassandra)之后,可以僅采用GaussDB (for Cassandra)即可完成數(shù)據(jù)庫(kù)存儲(chǔ)和對(duì)接大數(shù)據(jù)分析的功能,同時(shí)GaussDB (for Cassandra)提供了更為易用的CQL接口,讓用戶更加專注功能開發(fā),而不是資源管理。
數(shù)據(jù)變更捕獲和實(shí)時(shí)分析
客戶的一個(gè)使用場(chǎng)景需要將爬蟲或用戶輸入的數(shù)據(jù),進(jìn)行在線分析和實(shí)時(shí)推薦業(yè)務(wù),該業(yè)務(wù)中全量數(shù)據(jù)達(dá)到了50億條,但增量數(shù)據(jù)不足5億,分析對(duì)象主要是每日新增數(shù)據(jù)。在這個(gè)場(chǎng)景中,GaussDB (for Cassandra)為客戶提供了streaming服務(wù)+實(shí)時(shí)分析解決方案,在損失小部分讀寫性能的前提下,客戶端無(wú)需改造即可做到數(shù)據(jù)讀寫和實(shí)時(shí)分析并行,解決方案如下圖,該解決方案主要有以下幾個(gè)階段:
1.客戶業(yè)務(wù)用過(guò)開源驅(qū)動(dòng)寫入數(shù)據(jù)到GaussDB (for Cassandra)
2.GaussDB (for Cassandra)對(duì)外提供streaming接口,該接口可獲取數(shù)據(jù)變更捕獲
3.客戶構(gòu)建的流服務(wù)組件讀取streaming接口數(shù)據(jù)寫入到指定的Kafka隊(duì)列
4.Kafka隊(duì)列將streaming數(shù)據(jù)寫入到Spark或者Flink中
5.客戶在Spark中可對(duì)增量數(shù)據(jù)做分析,也可合并之后做全量分析
全量數(shù)據(jù)導(dǎo)出分析
客戶的另一個(gè)業(yè)務(wù)需要周期性對(duì)全量數(shù)據(jù)進(jìn)行分析和處理,但不想影響在線業(yè)務(wù),希望在閑時(shí)處理。GaussDB (for Cassandra)提供了全量數(shù)據(jù)導(dǎo)出和分析解決方案,可在業(yè)務(wù)低峰期觸發(fā)任務(wù)進(jìn)行數(shù)據(jù)導(dǎo)出和冷數(shù)據(jù)分析,數(shù)據(jù)導(dǎo)出速率是開源的10+倍,同時(shí)做到對(duì)業(yè)務(wù)讀寫基本無(wú)影響。如下為互聯(lián)網(wǎng)客戶每周定期導(dǎo)出數(shù)據(jù)分析用戶畫像的解決方案,該方案有以下幾個(gè)階段:
1.客戶根據(jù)需求配置ECS規(guī)格,并掛載obsfs并行文件系統(tǒng)
2.客戶在DLF上配置導(dǎo)出作業(yè),包括ECS信息,導(dǎo)出參數(shù)和定時(shí)任務(wù)
3.CDM下發(fā)作業(yè)任務(wù)
4.ECS上的導(dǎo)出任務(wù)將GaussDB (for Cassandra)中的指定表指定條件的數(shù)據(jù)導(dǎo)出到obsfs
5.Spark從obsfs中讀取全量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析
通過(guò)這3個(gè)秘訣,華為云GaussDB (for Cassandra)完美解決了難擴(kuò)展、高成本、變更不及時(shí)等問題,實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲(chǔ)和實(shí)時(shí)分析,為互聯(lián)網(wǎng)公司和IOT企業(yè)的數(shù)字化發(fā)展提供了更多可能。
審核編輯黃昊宇
-
華為云
+關(guān)注
關(guān)注
3文章
2682瀏覽量
17587
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論