自主機(jī)器開發(fā)是一個數(shù)據(jù)生成和收集、模型訓(xùn)練和部署的迭代過程,其特點(diǎn)是跨異構(gòu)計(jì)算資源的復(fù)雜的多階段、多容器工作流。
這其中涉及多個團(tuán)隊(duì),每個團(tuán)隊(duì)都需要共享和異構(gòu)計(jì)算。此外,團(tuán)隊(duì)希望將某些工作負(fù)載擴(kuò)展到云中,這通常需要 DevOps 專業(yè)知識,還需要在本地維護(hù)其他工作負(fù)載。
到目前為止,還沒有一個統(tǒng)一的平臺可供開發(fā)者輕松提交所需計(jì)算的工作負(fù)載。
在最近的 GTC 大會上,NVIDIA 發(fā)布了OSMO,這是一個云原生工作流編排平臺,它提供一個單一界面,用于跨異構(gòu)共享計(jì)算環(huán)境調(diào)度和管理各種自主機(jī)器工作負(fù)載。這些工作負(fù)載包括:
合成數(shù)據(jù)生成 (SDG)
DNN 訓(xùn)練和驗(yàn)證
強(qiáng)化學(xué)習(xí)
基于 SIM 或真實(shí)數(shù)據(jù)的感知評估
跨異構(gòu)共享計(jì)算部署復(fù)雜的工作流
借助 OSMO 統(tǒng)一計(jì)算資源調(diào)度,您可以輕松地在 Kubernetes 集群上部署和協(xié)調(diào)多階段工作負(fù)載。這包括共享的異構(gòu)多節(jié)點(diǎn)計(jì)算資源,例如 aarch64 和 x86-64,可確保跨不同架構(gòu)的靈活性和兼容性。
您可以輕松設(shè)置基于 YAML 的多階段、多節(jié)點(diǎn)任務(wù),并簡化從 SDG 、訓(xùn)練到模型驗(yàn)證的端到端開發(fā)流程。OSMO 還可以集成到現(xiàn)有的 CI/CD 工作流中,動態(tài)調(diào)度夜間回歸測試、基準(zhǔn)測試和模型驗(yàn)證等任務(wù)。
該服務(wù)還利用 OIDC 等開放標(biāo)準(zhǔn)進(jìn)行身份驗(yàn)證,并支持通過一鍵式密鑰輪換實(shí)現(xiàn)憑據(jù)和數(shù)據(jù)集安全性的最佳實(shí)踐。在合規(guī)性方面,團(tuán)隊(duì)可以通過開發(fā)中的版本管理和追蹤用于模型訓(xùn)練的所有數(shù)據(jù)。這一功能對于可重復(fù)性來說也非常有價(jià)值。
協(xié)調(diào)本地部署和云 SDG 工作負(fù)載
合成數(shù)據(jù)生成尤其受益于分布式環(huán)境,因?yàn)樗ǔ谋镜亻_始生成較小批量的數(shù)據(jù),但當(dāng)需要生成大量數(shù)據(jù)時,則需要利用云來進(jìn)行規(guī)模的擴(kuò)展。OSMO 使用彈性資源調(diào)配,在降低 SDG 等離線批量流程的成本方面發(fā)揮著關(guān)鍵作用,從而實(shí)現(xiàn)高效且經(jīng)濟(jì)的大規(guī)模數(shù)據(jù)生成。
高效運(yùn)行 SIL 和 HIL 測試
OSMO 支持的另一個重要工作負(fù)載是軟件在環(huán) (SIL) 機(jī)器人測試,涉及仿真多傳感器和多機(jī)器人場景,或是一系列測試場景。這些場景最適合易于訪問計(jì)算資源的云環(huán)境。OSMO 能夠跨分布式環(huán)境調(diào)度和管理工作負(fù)載,確保利用云資源的可擴(kuò)展性和可訪問性,從而高效地執(zhí)行 SIL 測試。
另一方面,由于特定機(jī)器人或機(jī)器硬件的可用性,硬件在環(huán) (HIL) 測試需要本地部署。
異構(gòu)計(jì)算對于 HIL 測試來說是必需的,因?yàn)榉抡婧驼{(diào)試等工作負(fù)載需要 x86,并且需要在 aarch64 上運(yùn)行針對測試的軟件,以提供其他方式無法提供的準(zhǔn)確性能和硬件功能。直接在目標(biāo)硬件上運(yùn)行 HIL 還可以減少對昂貴的仿真器的需求。
同時生成和訓(xùn)練基礎(chǔ)模型
OSMO 支持GR00T這種基礎(chǔ)模型,該模型需要在 NVIDIA DGX 上進(jìn)行模型訓(xùn)練,同時在 OVX 上進(jìn)行實(shí)時強(qiáng)化學(xué)習(xí)。該工作負(fù)載包括在一個循環(huán)中以迭代方式生成和訓(xùn)練模型。
OSMO 可以跨分布式環(huán)境管理和調(diào)度工作負(fù)載,從而實(shí)現(xiàn) DGX 和 OVX 系統(tǒng)的無縫協(xié)調(diào),從而實(shí)現(xiàn)高效的迭代模型開發(fā)。
圖 1. NVIDIA OSMO 用于 GR00T 基礎(chǔ)模型
跟蹤數(shù)據(jù)沿襲
數(shù)據(jù)沿襲和管理對于模型審計(jì)和確保整個開發(fā)過程的可追溯性來說至關(guān)重要。借助 OSMO,您可以追溯從來源到經(jīng)過訓(xùn)練的模型的數(shù)據(jù)沿襲,從而提供透明性和可靠性。
借助 OSMO,您還可以輕松地管理大型數(shù)據(jù)集和創(chuàng)建數(shù)據(jù)集,從而實(shí)現(xiàn)高效的數(shù)據(jù)組織和分類。這包括管理真實(shí)數(shù)據(jù)集、合成數(shù)據(jù)集或混合數(shù)據(jù)集的能力,從而靈活地控制用于模型訓(xùn)練和評估的數(shù)據(jù)集。
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2553文章
51390瀏覽量
756565 -
機(jī)器人
+關(guān)注
關(guān)注
211文章
28641瀏覽量
208396 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103716 -
仿真器
+關(guān)注
關(guān)注
14文章
1019瀏覽量
83934
原文標(biāo)題:借助 NVIDIA OSMO 擴(kuò)展 AI 機(jī)器人開發(fā)工作負(fù)載
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論