NVIDIA HPC SDK包含經(jīng)過驗(yàn)證的編譯器、庫和軟件工具,對于更大程度提高開發(fā)者的工作效率以及 HPC 應(yīng)用的性能和可移植性至關(guān)重要。
NVIDIA HPC SDK C、C++ 和 Fortran 編譯器支持使用標(biāo)準(zhǔn) C++ 和 Fortran、OpenACC 指令和 CUDA 實(shí)現(xiàn) HPC 建模和模擬應(yīng)用的 GPU 加速。GPU 加速的數(shù)學(xué)庫可更大限度地提升常用 HPC 算法的性能,而經(jīng)過優(yōu)化的通信庫支持基于標(biāo)準(zhǔn)的多 GPU 和可擴(kuò)展的系統(tǒng)編程。性能分析和調(diào)試工具可簡化 HPC 應(yīng)用的移植和優(yōu)化流程,而容器化工具支持在本地或云端輕松部署。HPC SDK 支持 NVIDIA GPU 和 Arm、OpenPOWER 或運(yùn)行 Linux 的 x86-64 CPU,為您提供構(gòu)建 NVIDIA GPU 加速的 HPC 應(yīng)用所需的工具。
為何要使用 NVIDIA HPC SDK?
性能
除了應(yīng)用廣泛的 HPC 應(yīng)用(包括 VASP、Gaussian、ANSYS Fluent、GROMACS 和 NAMD),還可以使用 CUDA、OpenACC 和 GPU 加速的數(shù)學(xué)庫,為用戶提供突破性性能。您可以使用這些相同的軟件工具對應(yīng)用進(jìn)行 GPU 加速,還可以使用 NVIDIA GPU 實(shí)現(xiàn)速度和能效大幅提升。
可移植性
為 99% 以上的 500 強(qiáng)系統(tǒng)(包括基于 NVIDIA GPU 或 x86-64、Arm 或 OpenPOWER CPU 的系統(tǒng))構(gòu)建和優(yōu)化應(yīng)用。您可以使用嵌入式庫、C++17 并行算法和 OpenACC 指令對您的代碼進(jìn)行 GPU 加速,并確保應(yīng)用完全可移植到其他編譯器和系統(tǒng)。
工作效率
借助能夠讓您快速移植、并行和優(yōu)化 GPU 加速的單一集成套件(包括用于多 GPU 和可擴(kuò)展計(jì)算的行業(yè)標(biāo)準(zhǔn)通信庫,以及用于分析的分析和調(diào)試工具),可以更大限度地提高科學(xué)和工程吞吐量,更大限度地減少編碼時(shí)間。
支持您喜歡的編程語言
C++17 并行算法
C++17 并行算法使用標(biāo)準(zhǔn)模板庫(STL)實(shí)現(xiàn)可移植的并行編程。NVIDIA HPC SDK C++ 編譯器在 CPU 上支持完整的 C++17,可將并行算法分流至 NVIDIA GPU,支持無指令、雜注或標(biāo)注的 GPU 編程。使用 C++17 并行算法的程序很容易移植到常用 C++ 的 Linux、Windows 和 macOS。
Fortran 2003 編譯器
NVIDIA Fortran 編譯器支持 Fortran 2003,以及 Fortran 2008 的許多功能。它支持在 GPU 上的 OpenACC 和 CUDA Fortran,也支持在 x86-64、Arm 和 OpenPOWER 這些多核 CPU 上的 SIMD 向量化、OpenACC 和 OpenMP。這樣,他就具有在當(dāng)今由 GPU 加速的異構(gòu) HPC 系統(tǒng)上移植和優(yōu)化 Fortran 應(yīng)用所需的功能。
OpenACC 指令
NVIDIA Fortran、C 和 C++ 編譯器支持基于 OpenACC 指令的并行編程,適用于 NVIDIA GPU 和多核 CPU。超過 200 款 HPC 應(yīng)用端口已使用 OpenACC 啟動(dòng)或啟用,包括 VASP、Gaussian、ANSYS Fluent、WRF 和 MPAS 等量產(chǎn)型應(yīng)用。OpenACC 適用于 GPU 和多核 CPU,是經(jīng)過驗(yàn)證的性能可移植指令解決方案。
主要功能
GPU 數(shù)學(xué)庫
NVIDIA HPC SDK 包括一套GPU 加速的數(shù)學(xué)庫,適用于計(jì)算密集型應(yīng)用。cuBLAS 和 cuSOLVER 庫可提供來自 LAPACK 的各種 BLAS 例程和核心例程的經(jīng) GPU 優(yōu)化的多 GPU 的實(shí)施,并盡可能自動(dòng)使用 NVIDIA GPU Tensor Core。cuFFT 包括用于真實(shí)和復(fù)雜數(shù)據(jù)的 GPU 加速的 1D、2D 和 3D FFT 例程,cuSPARSE 為稀疏矩陣提供基礎(chǔ)線性代數(shù)子例程。可以通過使用 C、C++ 和 Fortran 編寫的 CUDA 和 OpenACC 程序調(diào)用這些庫。
對 Tensor Core 進(jìn)行優(yōu)化
通過NVIDIA GPU Tensor Core,科學(xué)家和工程師能夠使用混合精度或雙精度大幅加速合適的算法。這些 NVIDIA HPC SDK 數(shù)學(xué)庫對 Tensor Core 和多 GPU 節(jié)點(diǎn)進(jìn)行了優(yōu)化,無需多費(fèi)力編碼,即可提供系統(tǒng)的全部性能潛力。利用 NVIDIA Fortran 編譯器,通過將可轉(zhuǎn)換的數(shù)組內(nèi)聯(lián)函數(shù)自動(dòng)映射至 cuTENSOR 庫,您可以使用 Tensor Core。
對您的 CPU 進(jìn)行優(yōu)化
異構(gòu) HPC 服務(wù)器使用 GPU 進(jìn)行加速計(jì)算,并基于 x86-64、OpenPOWER 或 Arm 指令集架構(gòu)使用多核 CPU。NVIDIA HPC 編譯器和工具在這些 CPU 上受支持,并且所有編譯器優(yōu)化可在支持這些編譯器的 CPU 上完全啟用。借助跨所有受支持系統(tǒng)的統(tǒng)一功能、命令行選項(xiàng)、語言實(shí)現(xiàn)、編程模型、工具和庫用戶界面,NVIDIA HPC SDK 可簡化開發(fā)者在各種 HPC 環(huán)境中的體驗(yàn)。
多 GPU 編程
NVIDIA 集合通信庫(NCCL)使用 MPI 兼容的 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 例程實(shí)現(xiàn)高度優(yōu)化的多 GPU 和多節(jié)點(diǎn)集合通信基元,以利用 HPC 服務(wù)器節(jié)點(diǎn)內(nèi)和跨 HPC 服務(wù)器節(jié)點(diǎn)的所有可用 GPU。NVSHMEM 可實(shí)現(xiàn) GPU 顯存的 OpenSHMEM 標(biāo)準(zhǔn),并提供多 GPU 和多節(jié)點(diǎn)通信基元,這些基元可通過主機(jī) CPU 或 GPU 啟動(dòng),也可在 CUDA 內(nèi)核中調(diào)用。
可擴(kuò)展系統(tǒng)編程
MPI是編程分布式內(nèi)存可擴(kuò)展系統(tǒng)的標(biāo)準(zhǔn)。NVIDIA HPC SDK 包括基于 Open MPI 的 CUDA-aware MPI 庫,支持 GPUDirect,這樣您可以直接使用遠(yuǎn)程直接數(shù)據(jù)存取(RDMA)來發(fā)送和接收 GPU 緩沖區(qū),包括在 CUDA 統(tǒng)一內(nèi)存中分配的緩沖區(qū)。CUDA-aware Open MPI 完全兼容 CUDA C / C++、CUDA Fortran 和 NVIDIA OpenACC 編譯器。
Nsight 性能分析
Nsight 系統(tǒng)可在系統(tǒng)范圍內(nèi)可視化 HPC 服務(wù)器上的應(yīng)用性能,并使您能夠在多核 CPU 和 GPU 中優(yōu)化瓶頸并擴(kuò)展并行應(yīng)用。Nsight Compute 允許您通過圖形或命令行用戶界面,在交互式分析器中深入探討 GPU 內(nèi)核,以用于 GPU 加速的應(yīng)用,并允許您使用 NVTX API 直接檢測源代碼的區(qū)域,從而確定性能瓶頸。
隨時(shí)隨地部署
容器將應(yīng)用及其依賴項(xiàng)捆綁到便攜式虛擬環(huán)境中,從而簡化軟件部署。NVIDIA HPC SDK 包含使用 HPC Container Maker 開發(fā)、分析和部署軟件簡化容器鏡像創(chuàng)建流程的說明。NVIDIA Container Runtime可在幾乎所有容器框架(包括 Docker 和 Singularity)中實(shí)現(xiàn)無縫 GPU 支持。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103726 -
gpu
+關(guān)注
關(guān)注
28文章
4776瀏覽量
129358 -
SDK
+關(guān)注
關(guān)注
3文章
1045瀏覽量
46273
原文標(biāo)題:DevZone | NVIDIA HPC SDK
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
HPC云計(jì)算的技術(shù)架構(gòu)
HPC按需計(jì)費(fèi)模式的優(yōu)勢
云計(jì)算和HPC的關(guān)系
云計(jì)算hpc的主要功能是什么
HPC云計(jì)算前景
NVIDIA JetPack 6.0版本的關(guān)鍵功能
![<b class='flag-5'>NVIDIA</b> JetPack 6.0版本的關(guān)鍵功能](https://file1.elecfans.com/web2/M00/05/B8/wKgZombeWvOAEOjgAAIXpwM05c0983.png)
IB Verbs和NVIDIA DOCA GPUNetIO性能測試
![IB Verbs和<b class='flag-5'>NVIDIA</b> DOCA GPUNetIO性能測試](https://file1.elecfans.com/web2/M00/04/E1/wKgaombIUG6AWlOKAAH2SzSPRP8059.png)
SDK通過UART端口發(fā)送消息,有沒有辦法關(guān)閉SDK中的消息?
NVIDIA突破美國禁令,將在中東部署其高性能AI/HPC GPU加速卡
MediaTek NeuroPilot SDK整合NVIDIATAO
NVIDIA發(fā)布DeepStream 7.0,助力下一代視覺AI開發(fā)
![<b class='flag-5'>NVIDIA</b>發(fā)布DeepStream 7.0,助力下一代視覺AI開發(fā)](https://file1.elecfans.com/web2/M00/E8/32/wKgZomZOpe-ASPcOAAAVQqys9bI420.png)
Nvidia Jetson Nano + CYW55573/AWXB327MA-PUR M.2無法使用操作系統(tǒng)內(nèi)置的網(wǎng)絡(luò)管理器管理Wi-Fi如何解決?
助力科學(xué)發(fā)展,NVIDIA AI加速HPC研究
![助力科學(xué)發(fā)展,<b class='flag-5'>NVIDIA</b> AI加速<b class='flag-5'>HPC</b>研究](https://file1.elecfans.com/web2/M00/E6/2B/wKgaomZCvAaAfknvAAAcvZ0bm24729.jpg)
利用NVIDIA AI Enterprise IGX在邊緣賦能任務(wù)關(guān)鍵型AI
![利用<b class='flag-5'>NVIDIA</b> AI Enterprise IGX在邊緣賦能任務(wù)關(guān)鍵型AI](https://file1.elecfans.com/web2/M00/DA/D9/wKgZomYrB86AQAiRAAAbVWhRnHM123.png)
什么是HPC高性能計(jì)算
![什么是<b class='flag-5'>HPC</b>高性能計(jì)算](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
評論