(文章來源:ITPUB)
數(shù)據(jù)湖概念最早是在2011年提出,到現(xiàn)在也就9年左右的時間,算是一個較新的概念。雖然各方理解上有些差異,也存在一些爭議,但概念不重要,關(guān)鍵是否能真正幫助企業(yè)解決在業(yè)務(wù)快速發(fā)展過程中不斷遭遇的新問題。對于希望從數(shù)據(jù)資產(chǎn)中獲取更多經(jīng)濟價值的企業(yè)而言,數(shù)據(jù)湖可能是一個可行的選擇。但對不少國內(nèi)企業(yè)來說,數(shù)據(jù)湖顯然還是一個未知的領(lǐng)域。
數(shù)據(jù)顯示,全球數(shù)據(jù)湖市場在2019年的規(guī)模為37.4億美元,預(yù)計到2025年將達(dá)到176億美元,預(yù)計2020 - 2025年期間的復(fù)合年增長率為29.9%。在國外,尤其是北美,數(shù)據(jù)湖應(yīng)用已經(jīng)比較成熟,但在國內(nèi),還屬于初期階段。因此,第一次搭建數(shù)據(jù)湖,從哪里開始?如何成功搭建數(shù)據(jù)湖?對一些企業(yè)而言可能很難獲知,無論從時間還是投入上來說,試錯的成本都很高,那么,企業(yè)應(yīng)該怎么做才能最大程度的降低風(fēng)險并確保獲得回報?而這將是本文要探討的。
什么是數(shù)據(jù)湖,簡單的說,數(shù)據(jù)湖更像是數(shù)據(jù)倉庫的進化,比傳統(tǒng)數(shù)據(jù)倉庫涉及面更廣。但這并不是說數(shù)據(jù)湖能直接代替數(shù)據(jù)倉庫,兩者可以互補,大量案例顯示,數(shù)據(jù)倉庫作為數(shù)據(jù)湖的一類“數(shù)據(jù)應(yīng)用”存在,協(xié)同工作。
眾所周知,傳統(tǒng)數(shù)據(jù)倉庫都是由數(shù)據(jù)庫發(fā)展而來,因此,無論是傳統(tǒng)的還是新型數(shù)據(jù)倉庫(分布式、云原生數(shù)倉),主要應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)湖是多結(jié)構(gòu)數(shù)據(jù)的存儲庫,無論是結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),都能以其原始格式存儲,不需要進行初始轉(zhuǎn)換過程,因此,更加靈活,并且存儲與計算是分離的,數(shù)據(jù)存儲在便宜的對象存儲中,如Hadoop或Amazon S3,能更好的優(yōu)化成本,而各種工具和服務(wù)(如Apache Presto、Elasticsearch和Amazon Athena)可以用來查詢這些數(shù)據(jù)。
數(shù)據(jù)湖的產(chǎn)生,源于大數(shù)據(jù)時代企業(yè)面臨的一系列挑戰(zhàn),例如:數(shù)據(jù)孤島,分析各種數(shù)據(jù)集的難度,數(shù)據(jù)管理,數(shù)據(jù)安全等。而云計算、人工智能則是推動數(shù)據(jù)湖發(fā)展的重要因素,云計算提供了快速查詢、海量存儲的能力,而機器學(xué)習(xí)需要原始數(shù)據(jù)做分析,而用到的數(shù)據(jù),也不止于結(jié)構(gòu)化數(shù)據(jù),用戶的評論、圖像這些非結(jié)構(gòu)化數(shù)據(jù),也都可以應(yīng)用到機器學(xué)習(xí)中。目前,數(shù)據(jù)湖最為人所知的應(yīng)用,當(dāng)屬亞馬遜Galaxy(內(nèi)部代號),如今已經(jīng)成為了亞馬遜核心競爭力之一。
Galaxy數(shù)據(jù)湖建于2019年,構(gòu)建的原因是亞馬遜運營團隊需要做大量的數(shù)據(jù)分析,但基于傳統(tǒng)的數(shù)據(jù)倉庫無法滿足擴展的需要,并且維護的復(fù)雜度和成本都很高。基于自身強大的技術(shù)能力,亞馬遜Galaxy實施了基于Amazon S3的數(shù)據(jù)湖方案,使用Amazon Redshift,Redshift Spectrum,和Amazon EMR運行分析的操作。下圖展示了Galaxy使用的一些AWS服務(wù):Galaxy的部署,讓數(shù)據(jù)存儲量從50PB提升至100PB,在減少成本的同時加快了從數(shù)據(jù)中挖掘有用信息的速度。
目前,每天在Galaxy上執(zhí)行的分析任務(wù)高達(dá)60萬個,涉及各個方面,如為用戶推薦、運營信息、庫存信息、購買信息、物價信息等。再來看一個國內(nèi)的應(yīng)用,出海電商新秀Club Factory。Club Factory 是2016年由嘉云數(shù)據(jù)在杭州成立, 定位于創(chuàng)新型出口電商、輕自營跨境電商平臺。或許國內(nèi)很多人都沒聽說過這家公司,但這家公司很厲害,手握的全球用戶已經(jīng)超過1億,其APP在超過10個國家APP購物榜單排名前5,14個國家排名前10。
在數(shù)據(jù)湖的構(gòu)建上,Club Factory采用了基于AWS數(shù)據(jù)湖的解決方案,通過使用數(shù)據(jù)湖來實現(xiàn)基于用戶在平臺上的所有行為做實時自動推薦,BI報表(內(nèi)部運營、分析),供應(yīng)鏈管理創(chuàng)新。據(jù)公開資料顯示,其數(shù)據(jù)湖平臺日均處理15億條行為數(shù)據(jù)分析,支撐80多位數(shù)據(jù)工程師的分析和算法需求,支撐180個活躍的數(shù)據(jù)分析調(diào)度任務(wù),每日同步4000多個業(yè)務(wù)數(shù)據(jù)到數(shù)據(jù)倉庫,支撐的數(shù)據(jù)總量達(dá)到約600TB。
如何快速搭建數(shù)據(jù)湖?搭建數(shù)據(jù)湖無非2種選擇,一種是基于開源解決方案,一種是基于商業(yè)解決方案。開源解決方案的優(yōu)勢是沒有授權(quán)成本,但有個前提,即你所在的企業(yè)得有一個能夠駕馭開源技術(shù)的團隊,有能力自己解決問題。因為,開源解決方案通常都比較零散,不成系統(tǒng)。對于初次搭建數(shù)據(jù)湖的企業(yè)而言,復(fù)雜性很高,成功搭建難度大。基于商業(yè)的解決方案則相反,對于較小或剛開始使用數(shù)據(jù)湖的公司來說,基于公有云的數(shù)據(jù)湖解決方案實現(xiàn)數(shù)據(jù)湖的快速構(gòu)建是可行的選擇。
不僅搭建和管理維護的復(fù)雜性降低,并且成本可監(jiān)控。其次,基于云的數(shù)據(jù)湖解決方案技術(shù)成熟度更高。能得到更為成熟的技術(shù)環(huán)境支持,包括工具的多樣性。最后,可擴展性和安全也是重要原因之一。目前,數(shù)據(jù)湖已經(jīng)在公有云上得到了完美的實現(xiàn)和應(yīng)用,例如:可以基于Amazon S3、AWS Glue等多個基本云服務(wù)快速構(gòu)建出一套數(shù)據(jù)湖服務(wù) 。近期,AWS宣布,AWS Glue、Amazon Athena在由西云數(shù)據(jù)運營的AWS中國(寧夏)區(qū)域正式上線。
AWS Glue是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄。它的價值在于,能讓準(zhǔn)備數(shù)據(jù)更容易加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。Amazon Athena則是一種交互式查詢服務(wù),使用標(biāo)準(zhǔn)的SQL,可以直接對Amazon S3上的數(shù)據(jù)做交互查詢。而這兩種服務(wù)都是無服務(wù)器服務(wù),意味著不需要管理基礎(chǔ)設(shè)施,只需要為運行的查詢付費。
官方已經(jīng)給出了如何使用 AWS Glue 和 Amazon S3 構(gòu)建數(shù)據(jù)湖基礎(chǔ)和如何使用Amazon Athena 分析數(shù)據(jù)的具體教程,本文就不再贅述。當(dāng)然,如果你覺得這種方式還有些復(fù)雜,那么接下來的一項服務(wù),可以重點關(guān)注。去年,AWS發(fā)布了一項名為AWS Lake Formation的新服務(wù),進一步降低了數(shù)據(jù)湖搭建的門檻,該服務(wù)簡化了數(shù)據(jù)湖的創(chuàng)建過程,并在幾天(而不是幾個月)內(nèi)構(gòu)建一個安全的數(shù)據(jù)湖。
不過,該服務(wù)目前還未在中國正式推出。當(dāng)然,你也可以視自身情況自行選擇其他供應(yīng)商,本文推薦基于AWS數(shù)據(jù)湖解決方案來實現(xiàn)快速搭建數(shù)據(jù)湖,是因為,到目前為止,AWS數(shù)據(jù)湖/數(shù)據(jù)分析解決方案是最完整,提供服務(wù)最豐富的,也是成功案例最多的。
(責(zé)任編輯:fqj)
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7139瀏覽量
89565 -
云計算
+關(guān)注
關(guān)注
39文章
7859瀏覽量
137854
發(fā)布評論請先 登錄
相關(guān)推薦
評論