隨著物聯(lián)網(wǎng) (IoT)、人工智能(AI) 、機(jī)器學(xué)習(xí)(ML)和 3-D 成像等技術(shù)的發(fā)展,數(shù)據(jù)的速度、種類和數(shù)量呈爆炸式增長,企業(yè)需要處理的數(shù)據(jù)規(guī)模和數(shù)量呈指數(shù)級增長。
對許多行業(yè)來說,如體育直播賽事、新產(chǎn)品測試或股票趨勢分析等,對實時處理數(shù)據(jù)的能力要求非常高。為了在競爭中領(lǐng)先一步,企業(yè)需要閃電般快速和高度可靠的IT基礎(chǔ)架構(gòu)來處理、存儲和分析大量數(shù)據(jù)。這種工具就是高性能計算!
一、
HPC(高性能計算)概述
1.什么是HPC(高性能計算)?
高性能計算 (High Performance Computing,又叫HPC、超級計算)是指比傳統(tǒng)計算機(jī)和服務(wù)器提供更高馬力聚合計算能力的計算方法。與超級計算機(jī)或硬件加速機(jī)器不同,高性能計算特別強(qiáng)調(diào)使用分布式資源來組合存儲、應(yīng)用程序、計算能力和網(wǎng)絡(luò)資源,以完成其他方式無法完成的任務(wù)。高性能計算需要處理的TB、PB、甚至ZB級別的數(shù)據(jù),并且需要接近實時地處理,比如在幾分鐘或者幾小時內(nèi)得到結(jié)果,而不是幾天或幾個星期。
2.HPC為什么重要?
HPC之所以重要,是因為它能幫助我們更快地完成大型模擬和大型工作負(fù)載。
HPC比普通PC更快更強(qiáng)更省力,它每秒可以執(zhí)行千萬億次計算,配備3 GHz處理器的筆記本電腦或臺式機(jī)每秒可以執(zhí)行大約 30 億次計算。
HPC 通過集群/并行計算、最新的 CPU 和GPU、低延遲網(wǎng)絡(luò)和塊存儲設(shè)備去實現(xiàn)高速處理。
HPC系統(tǒng)更具可擴(kuò)展性。用戶可以在需要時進(jìn)行縱向擴(kuò)展(升級 CPU、GPU、內(nèi)存或其他資源)和橫向擴(kuò)展(將更多節(jié)點添加到集群中)。從云服務(wù)提供商 (CSP) 租用 HPC 資源可以進(jìn)一步提高可擴(kuò)展性并降低成本。
三種HPC解決方案:
本地HPC:本地的HPC就是傳統(tǒng)的HPC數(shù)據(jù)中心,需要有高性能服務(wù)器和存儲,用戶自己去搭建這個HPC集群。
HPC云:云上的高性能計算提供HPC即服務(wù),用戶使用公有云去完成計算工作。
混合HPC:一個應(yīng)用運行在私有云(private cloud)或數(shù)據(jù)中心(data center)中,當(dāng)計算能力的需求達(dá)到頂峰時則動態(tài)地向公有云服務(wù)器請求一定量的計算(或存儲)能力。當(dāng)本地的工作負(fù)載積壓時會立即啟動云資源,把工作負(fù)載遷移到公有云上去計算,支持的云比如說谷歌云、微軟云、Oracle云等。
3.HPC工作原理
HPC中處理信息的兩種主要方法是:
串行處理由中央處理單元 (CPU) 完成。每個 CPU 內(nèi)核通常一次只處理一個任務(wù)。CPU 對于運行操作系統(tǒng)和基本應(yīng)用程序(例如,文字處理、辦公效率)等功能至關(guān)重要。
可以使用多個 CPU 或圖形處理單元 (GPU) 執(zhí)行并行處理。GPU 最初是為專用圖形開發(fā)的,可以同時跨數(shù)據(jù)矩陣(例如屏幕像素)執(zhí)行多個算術(shù)運算。同時處理大量數(shù)據(jù)平面的能力使 GPU 非常適合機(jī)器學(xué)習(xí) (ML) 應(yīng)用程序任務(wù)中的并行處理,例如識別視頻中的對象。
二、
HPC應(yīng)用場景
HPC出現(xiàn)在 1960 年代,用于支持政府和學(xué)術(shù)研究。HPC 在 1970 年代開始進(jìn)入主要行業(yè),以加速復(fù)雜產(chǎn)品的開發(fā),例如汽車、航空航天、石油和天然氣、金融服務(wù)和制藥行業(yè)。在現(xiàn)在,各行各業(yè)都能用到,比如生命科學(xué)、天體物理學(xué)、基因組學(xué)、生物信息學(xué)、分子動力學(xué)、天氣和氣候預(yù)測。具體應(yīng)用如圖所示:
三、
虹科高性能計算解決方案
1.Kubernetes上的高性能計算
Kubernetes作為目前容器管理框架的事實標(biāo)準(zhǔn),在當(dāng)下的應(yīng)用十分火熱。隨著微服務(wù)和容器在企業(yè)中越來越流行,它們也在進(jìn)軍機(jī)器學(xué)習(xí)和其他類似的HPC工作。這一趨勢模糊了傳統(tǒng)HPC和容器技術(shù)之間的界限,引發(fā)了對利用 Kubernetes進(jìn)行HPC的可能性的探索。
使用容器和 Kubernetes 來管理和運行 HPC 應(yīng)用程序有很多好處:
容器化是一種強(qiáng)大的工具,可以打包復(fù)雜的依賴關(guān)系并提高可重復(fù)性。
隨著企業(yè)將 Kubernetes 作為應(yīng)用程序現(xiàn)代化的安全和多云平臺,在共享環(huán)境中托管 HPC 和企業(yè)容器工作負(fù)載將簡化運營并降低成本。
Kubernetes 本質(zhì)上提供了一個包含 CPU、內(nèi)存和加速器的共享資源池,就像工作負(fù)載管理器一樣。
更多深入閱讀可以參考《kubernetes上的HPC》白皮書。
2.HK-Nimbix HPC平臺
(1)什么是JARVICE XE
JARVICE XE 是世界上第一個容器原生混合/多云 HPC 平臺,可在任何與 Kubernetes 兼容的基礎(chǔ)設(shè)施上實現(xiàn)全球范圍的橫向擴(kuò)展和加速 HPC 和 AI 工作流(SaaS 和 PaaS)。
JARVICE提供加速的應(yīng)用程序和工作流,這些應(yīng)用程序和工作流可以利用任何基礎(chǔ)設(shè)施,無論是裸機(jī)還是虛擬化,包括專用Kubernetes基礎(chǔ)設(shè)施上的InfiniBand、GPU和FPGA
JARVICE 使客戶能夠輕松地從本地解決方案突發(fā)到來自 Google、AWS 和 Azure 等的公有云系統(tǒng),或者將內(nèi)部系統(tǒng)作為私有云進(jìn)行管理。
(2)使用JARVICE XE在 Kubernetes上運行HPC
JARVICE XE通過兩個主要改進(jìn)彌補(bǔ)了在 Kubernetes上運行HPC代碼的差距:
兩級HPC調(diào)度器
調(diào)度器提供2個級別,一個將傳統(tǒng)的HPC作業(yè)請求轉(zhuǎn)換為一組Kubernetes Pod,一個將Pod綁定到節(jié)點的組調(diào)度器,如果請求的規(guī)模不可用,則將整個作業(yè)排隊。而且組調(diào)度器提供一些重要功能去幫助pod調(diào)度
JARVICE XE使用來自 HyperHub目錄中應(yīng)用程序的元數(shù)據(jù)為最終用戶定義工作流,而不是要求用戶編寫PBS 或Slurm腳本來啟動工作。
HPC運行時環(huán)境
它在作業(yè)啟動時動態(tài)創(chuàng)建,可以根據(jù)來自調(diào)度程序的工作流請求的參數(shù)配置批處理運行或交互界面,可以確保工作流的有限完成,無論求解器成功還是失敗,也可以讓傳統(tǒng)的HPC代碼可以不加修改地在JARVICE上運行,如有需要,JARVICE XE還直接支持NFS和CephFS共享文件系統(tǒng),運行時環(huán)境可以通過將主機(jī)級別的掛入點定義為機(jī)器定義的一部分來附加 Kubernetes原生不支持的存儲接口,并行存儲系統(tǒng),例如 WekaIO2。
(3)HyperHub應(yīng)用市場
Hyperhub是一個精選的點擊式目錄,提供HPC優(yōu)化的仿真模擬、Al/ML/DL軟件,比如ansys、COMSOL、西門子、Matlab、TensorFlow等等,它具有有數(shù)百個加速的高性能工作流,內(nèi)置支持高性能集群的自動縮放應(yīng)用程序,將HPC和超級計算應(yīng)用程序作為點選式的工作流程,并且會自動更新這些軟件到任何JARVICE XE部署中。
HYPERHUB與JARVICE XE相結(jié)合為nimbix cloud提供支持,使用戶能夠在任何基礎(chǔ)設(shè)施上以幾乎無限的超級計算能力訪問整個應(yīng)用程序目錄,除了已有的軟件,hyperhub中沒有的軟件支持用戶自定義安裝,使用Jarvice的PushToCompute Tool 可以輕松設(shè)置應(yīng)用程序。JARVICE提供了一個端到端的持續(xù)集成/持續(xù)部署(CI/CD)管道,用于編譯、部署、測試和維護(hù)容器化云計算應(yīng)用程序。這都是該平臺的PushToCompute功能的一部分。
(4)JARVICE XE 優(yōu)勢
“開箱即用”的計算能力
JARVICE XE支持私有云、公有云、混合云和多云部署
JARVICE XE使企業(yè)IT部門可以輕松地將HPC添加到他們的服務(wù)組合中
JARVICE XE附帶完整的 HPC 軟件目錄,該目錄會自動更新最新版本(接管 IT 負(fù)擔(dān))
HK-Nimbix HyperHub 應(yīng)用程序目錄可幫助用戶定義工作流程
能夠?qū)?SLURM 作業(yè)轉(zhuǎn)換為低級“Pod”調(diào)度程序作業(yè)
通過容器靈活部署可擴(kuò)展的 HPC 作業(yè)
租戶隔離,沒有客戶端共享相同的資源
(5)HK-Nimbix 基礎(chǔ)設(shè)施趨勢
1)計算加速器
Nimbix在公有云中提供最廣泛的FPGA和GPU功能目錄 → 支持高級求解器以加快計算速度并降低客戶成本.
2)更高密度的節(jié)點(內(nèi)存、CPU 內(nèi)核)
Nimbix計算節(jié)點具有物理內(nèi)核(相對于“線程”或“VCPU”)
Nimbix計算節(jié)點的每個內(nèi)核至少有8GB的RAM
>>各種可用的GB RAM節(jié)點和GPU節(jié)點
>>128GB、256GB和512GB RAM節(jié)點可用于16核
>>192GB、384GB和768GB RAM節(jié)點可用于20核
>>通過云供應(yīng)商提供的業(yè)內(nèi)最快結(jié)構(gòu)中擴(kuò)展到數(shù)千個內(nèi)核
額外的GPU內(nèi)存因類型而異,但最高可達(dá) 24GB/GPU
3)最快的互連
所有Nimbix計算節(jié)點在節(jié)點之間有56Gbps InfiniBand,在Spine上有100Gbps
RDMA用于節(jié)點之間的MPI,系統(tǒng)范圍內(nèi)的延遲<2μs
四、
案例分享
HK-Nimbix幫助IDEX Biometrics在一周內(nèi)完成指紋傳感器的設(shè)計:通過nimbix Cloud,IDEX可以使用相當(dāng)于四個HPC工作站及其關(guān)聯(lián)的并行計算能力,而無需自己維護(hù)基礎(chǔ)設(shè)施,能夠幫助IDEX公司加快新產(chǎn)品研發(fā)和上市的速度。
《數(shù)據(jù)改變社會 BI助力發(fā)展》直播預(yù)告
直播講師:肖曉容
直播時間:10月27日 周四20點
直播精彩內(nèi)容預(yù)告:
1.大數(shù)據(jù)概述
大數(shù)據(jù)時代
數(shù)據(jù)的重要性
企業(yè)目前面臨的數(shù)據(jù)難題
如何有效解決數(shù)據(jù)問題
2.BI軟件的功能
數(shù)據(jù)集成
數(shù)據(jù)可視化
數(shù)據(jù)分析
移動端應(yīng)用
共享與協(xié)作
……
3.案例解析
Hk-Omniscope COVID19模擬演示
Hk-Domo幫助艾默生為易變質(zhì)產(chǎn)品供應(yīng)鏈提供保障
審核編輯 :李倩
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8438瀏覽量
133078 -
高性能計算
+關(guān)注
關(guān)注
0文章
83瀏覽量
13440
原文標(biāo)題:【虹科直播精彩回顧】高性能計算,讓數(shù)據(jù)擁有無限可能!
文章出處:【微信號:Hongketeam,微信公眾號:廣州虹科電子科技有限公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論