那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Hadoop大數據存算分離方案:計算層無縫對接存儲系統

杉巖老李 ? 來源:杉巖老李 ? 作者:杉巖老李 ? 2022-12-26 14:45 ? 次閱讀

Hadoop的誕生改變了企業對數據的存儲、處理和分析的過程,加速了大數據的發展。隨著大數據系統建設的深入,企業的數據基礎設施易出現計算資源浪費、存儲性能低、管理成本過高等挑戰。相比存算一體架構,存算分離架構具有性能與成本最優、兼具靈活性等特點,因此受到企業IT部門的青睞,并紛紛開始對Hadoop架構進行改造。

為滿足大數據不同場景需求,杉巖數據此前研發推出了兼容HDFS接口能力的高性能數據湖文件網關,為使湖倉一體方案更加完善,杉巖數據全新升級了面向AI訓練、機器學習、大數據分析等場景的高性能文件存儲——杉巖云原生文件存儲(以下簡稱杉巖CNFS),為客戶實現All in One的存儲能力。

存算分離實現方案:客戶端模式

杉巖CNFS支持客戶端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件協議)接口實現,對HDFS接口協議完全兼容,可以保證應用層就像使用原生HDFS存儲一樣使用杉巖CNFS。

實際場景中,通過在計算平臺部署安裝專用的客戶端與簡單的配置,即可實現Hadoop平臺的組件與分離部署的存儲交互。針對業界使用比較廣泛的CDH平臺(Hadoop商業發行版之一),杉巖CNFS也開發了配套的Parcel資源包,利用CDH自身的管理便捷地配置使用杉巖CNFS提供的存儲空間。

poYBAGOpQvyAFw8dAADHIWN3r4A300.png

圖1 杉巖湖倉一體方案存算分離實現(客戶端模式)

但是像所有HCFS接口實現一樣,侵入式的部署方式使計算組件有了額外的依賴需要管理,當涉及計算組件自身的升級、替換等場景時,就要考慮杉巖CNFS客戶端軟件包和配置的同步,增加了運維工作。因此這種對接方式一定程度限制了計算組件自身的靈活性。

在實際應用中,用戶如果有相對較為頻繁的升級更替計算組件的場景,往往不能接受侵入式的部署對接方式。

實現無縫對接!杉巖數據推出HDFS網關服務端組件

針對這一需求,杉巖數據研發推出了HDFS網關服務端組件,進一步簡化對接部署過程。HDFS網關實現了原生HDFS協議,可收發原生HDFS協議的請求,計算節點通過Hadoop環境自帶的原生HDFS-Client即可訪問存儲系統,無需額外安裝專用客戶端。

pYYBAGOpQv2AYB7vAADpGMFzRyA309.png

圖2 杉巖湖倉一體方案存算分離實現(服務端模式)

方案優勢

原生HDFS協議,兼容性良好:HDFS網關支持幾乎所有的HDFS數據面接口,可對接市場上常見的大數據平臺。

無縫對接,簡化對接部署過程:通過原生HDFS協議直接訪問存儲系統,無需在計算層安裝專用客戶端。計算組件升級、替換時,無需考慮客戶端配置,減少運維工作量。

高數據吞吐能力,無單點故障:通過杉巖云原生文件存儲對HDFS網關的數據處理卸載能力,大大降低了HDFS網關的數據處理開銷,提升了整體的數據吞吐能力,并結合LVS實現了對HDFS網關的去中心化、水平擴展。

性能測試

LVS只處理HDFS NameNode的元數據相關RPC,實際占大部分網絡帶寬的數據讀寫是DataNode角色的block讀寫流量,不通過LVS,而由HDFS Gateway通過NameNode RPC返回自身節點的IP,HDFS-Client直接和各HDFS Gateway通訊。所以LVS不會成為大數據讀寫的瓶頸,如下圖所示:

poYBAGOpQv6AMqtSAAHFAXqwdk4046.png

圖3 通過LVS訪問HDFS網關的交互

以下是在3節點存儲加3節點Hadoop集群環境,通過TestDFSIO讀寫9個30G文件的對比測試結果,可見HDFS網關對存儲系統帶寬影響較小。但HDFS網關的增加會使IO路徑長度多一跳,對存儲網絡帶寬需求增加,規劃存儲網絡時應考慮這一點。

pYYBAGOpQv6AUMm3AACIb_-ZSnM729.png

圖4 存算分離場景杉巖CNFS直通和通過HDFS網關帶寬測試

值得一提的是,有些計算層組件可能針對HDFS做特別的優化,例如Hbase就實現了自己的異步HDFS-Client,此情況下使用HDFS網關可以繼續使用計算側的特別優化,能獲得更好的性能。

總結

隨著5GIoT的快速發展,數據激增,企業級大數據平臺建設逐漸深入,基于存算分離架構,計算承接豐富的應用接入需求,存儲提供成熟穩定的底座支撐業務發展和生態對接是大勢所趨。

上述內容體現了杉巖云原生文件存儲在Hadoop大數據存算分離場景中的優勢,杉巖數據推出HDFS網關服務端組件,通過原生HDFS協議直接訪問存儲系統,簡化了對接部署過程,為用戶提供了更多的選擇,使基于杉巖大數據智能存儲為基座的湖倉一體方案更加完善。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲系統
    +關注

    關注

    2

    文章

    414

    瀏覽量

    40935
  • Hadoop
    +關注

    關注

    1

    文章

    90

    瀏覽量

    16034
  • HDFS
    +關注

    關注

    1

    文章

    30

    瀏覽量

    9640
  • 大數據
    +關注

    關注

    64

    文章

    8908

    瀏覽量

    137786
  • 存算分離
    +關注

    關注

    0

    文章

    6

    瀏覽量

    89
收藏 人收藏

    評論

    相關推薦

    Hadoop 生態系統大數據處理中的應用與實踐

    隨著數據量的爆發式增長,大數據處理技術成為企業關注焦點,Hadoop 生態系統在其中扮演著核心角色。 Hadoop Distributed
    的頭像 發表于 01-21 17:48 ?103次閱讀

    開源芯片系列講座第24期:基于SRAM的高效計算架構

    先進的計算架構技術,以克服傳統馮諾依曼架構中計算單元與存儲單元分離導致的“內存墻”問題。基于SRAM的
    的頭像 發表于 11-27 01:05 ?332次閱讀
    開源芯片系列講座第24期:基于SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b>的高效<b class='flag-5'>計算</b>架構

    一體化與邊緣計算:重新定義智能計算的未來

    隨著數據量爆炸式增長和智能化應用的普及,計算存儲的高效整合逐漸成為科技行業關注的重點。數據存儲和處理需求的快速增長推動了對
    的頭像 發表于 11-12 01:05 ?335次閱讀
    <b class='flag-5'>存</b><b class='flag-5'>算</b>一體化與邊緣<b class='flag-5'>計算</b>:重新定義智能<b class='flag-5'>計算</b>的未來

    WDS分布式存儲系統軟件助力電信工程海量數據存儲項目

    WDS分布式存儲系統軟件助力電信工程海量數據存儲項目
    的頭像 發表于 11-11 09:59 ?245次閱讀
    WDS分布式<b class='flag-5'>存儲系統</b>軟件助力電信工程海量<b class='flag-5'>數據</b><b class='flag-5'>存儲</b>項目

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理超大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據應用。
    的頭像 發表于 10-08 15:12 ?192次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    計算存儲系統的工作原理和功能

    計算存儲系統作為計算機系統中至關重要的組成部分,其原理和功能對于理解計算機的運行機制具有關鍵意義。以下將詳細闡述計算
    的頭像 發表于 09-26 16:42 ?1356次閱讀

    計算存儲系統的構成

    計算存儲系統計算機中用于存放程序和數據的設備或部件的集合,它構成了計算機信息處理的基礎。一個完整的
    的頭像 發表于 09-26 15:25 ?1320次閱讀

    基于分布式存儲系統醫療影像數據存儲解決方案

    基于分布式存儲系統醫療影像數據存儲解決方案
    的頭像 發表于 09-14 09:53 ?379次閱讀
    基于分布式<b class='flag-5'>存儲系統</b>醫療影像<b class='flag-5'>數據</b><b class='flag-5'>存儲</b>解決<b class='flag-5'>方案</b>

    基于CSS融合存儲系統的自動化制造服務平臺存儲解決方案

    基于CSS融合存儲系統的自動化制造服務平臺存儲解決方案
    的頭像 發表于 09-10 10:15 ?398次閱讀
    基于CSS融合<b class='flag-5'>存儲系統</b>的自動化制造服務平臺<b class='flag-5'>存儲</b>解決<b class='flag-5'>方案</b>

    數據中心存儲系統出現故障的處理方法有哪些?數據中心存儲系統出現故障怎么辦?

    互聯網+時代,大數據非常重要,如果保護好如數據存儲系統相當關鍵。如今,隨著互聯網的快速發展,各種攻擊變得越來越嚴重,數據存儲系統也變得越來越
    的頭像 發表于 06-19 11:30 ?909次閱讀

    科技助力AI應用落地:WTMDK2101-ZT1評估板實地評測與性能揭秘

    計算都是一體架構的重要組成部分,目的是在硬件層面上優化數據處理流程,使得計算機系統能夠更快速、更有效地處理大規模
    發表于 05-16 16:38

    計算WTM2101編譯工具鏈 資料

    出來再進行計算,讀取時間與參數規模成正比,計算芯片的功耗和性能受限,GPU力利用率甚至不到8%。 計算芯片實現了
    發表于 05-16 16:33

    探索計算—基于 SRAM 的計算與基于 MRAM 的一體的探究

    技術,包括其工作原理、優勢以及在軍工和大數據存儲領域的應用。最后,對比了SRAM的計算和基于MRAM的
    的頭像 發表于 05-16 16:10 ?3161次閱讀
    探索<b class='flag-5'>存</b>內<b class='flag-5'>計算</b>—基于 SRAM 的<b class='flag-5'>存</b>內<b class='flag-5'>計算</b>與基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b>一體的探究

    大數據時代的存儲革命:理解分布式存儲系統

    管理的效率極低。因此,分布式存儲系統應運而生。 分布式存儲就是將數據存儲在眾多的服務器或網絡節點上,而不是集中在單個位置。這種方式的好處包括:方便擴容、
    的頭像 發表于 03-07 15:40 ?470次閱讀

    分布式存儲計算大數據時代的解決方案

    分布式存儲計算技術應運而生,并迅速成為處理大數據的首選方案。本文將深入探討分布式存儲計算的概
    的頭像 發表于 03-07 14:42 ?861次閱讀
    现场百家乐官网的玩法技巧和规则 | kk娱乐城送彩金| 伯爵百家乐娱乐场| 百家乐官网桩闲落注点| 大发888娱乐场怎样下载 | 大发888新址 | 免费百家乐统计软件| 百家乐赌神| 庞博百家乐官网的玩法技巧和规则| 大世界百家乐官网娱乐城| 博雅德州扑克| 大发888娱乐85战神版| 百家乐百博| 真人百家乐ea平台| 百家乐官网赌博租| 百家乐官网赌场彩| 天马娱乐城| 宝博娱乐城开户| 赌球| 百家乐套利| 易胜博百家乐作弊| 百家乐官网玩法| 百家乐官网玩法规| 太阳城百家乐官网注册平台| 百家乐官网如何破解| 皇冠投注| 现金网送体验金| 大发888注册优惠代码| 四方百家乐的玩法技巧和规则| 百家乐平台哪个有在线支付呢| 蓝宝石百家乐官网娱乐城| 怎样玩百家乐官网才能| 如何看百家乐官网的路纸| 宁津县| 网络博彩公司| 大发888娱乐场存款| 尊龙百家乐娱乐城| 逍遥坊百家乐的玩法技巧和规则 | 大发888最新版本下载| 百家乐规| 百家乐游戏方法|