電子發燒友網報道(文/吳子鵬)要問2023世界人工智能大會(WAIC)上什么應用最火,想來答案就是生成式AI和AI大模型,無論是專業會議還是展品,基本都是圍繞這兩項展開。對于生成式AI和AI大模型而言,核心三要素是算法、數據和算力,其中算力是底座。
對于算力而言,目前行業基本的共識是基于通用GPU來構建AI大模型的算力集群,上海天數智芯半導體有限公司(以下簡稱:天數智芯)是目前國內第一家實現通用GPU量產并落地的公司。在WAIC上,天數智芯展示了通用GPU訓練產品“天垓100”和推理產品“智鎧100”,以及基于兩款芯片落地的超過20+行業方案,其中當然也包括AI大模型的訓練和推理案例。
天數智芯董事長兼CEO蓋魯江在接受電子發燒友網等媒體采訪時表示:“目前,天數智芯的‘天垓100’產品已經跑通近500個模型,包括清華大學的GLM模型、Meta的LLamA模型、北京智源人工智能研究院Aquila模型等。智源研究院當前已經跑通的大模型是70億參數規模,650億參數規模的大模型也正在基于天數智芯天垓‘100’進行訓練,預計將會于今年的10月份完成?!?br />
蓋魯江指出:“這些案例充分地證明了,天數智芯的國產通用GPU能夠適配國內公司推出的大模型產品,也能夠滿足垂直行業方案在推理方面的需求。我們也在更新迭代自己的產品,預計在今年第四季度或者明年初將會有新品推出,針對大模型算法做硬件級的優化,實現算力通用性和芯片性能的全面提升?!?br />
從行業發展現狀來看,目前在國產通用GPU方面,天數智芯處于領先的位置。那么,要做好國產通用GPU需要具備哪些要素呢?而后續國產通用GPU優化的方向是什么呢?
打造國產通用GPU,團隊很重要
產業界真正提出通用GPU這個概念是在2003年,此后不斷強化其通用性,逐漸和圖形GPU有了明顯的差別。由于具有高并發性、高吞吐量以及可編程的能力,目前通用GPU成為產業界提供算力的主要手段。
蓋魯江在受訪時談到,要做好國產通用GPU,團隊是非常重要的,且需要一支完整的有做過大芯片經驗的團隊。
他對此說到:“通用GPU設計需要研發團隊具備工程設計的經驗和能力,才能夠將其設計出來。舉例來說,天數智芯通用GPU產品其中一個賣點是全自主IP,也就是說IP是由我們團隊自己設計的,保證了產品的穩定供應,其中涉及了IP的設計和驗證,一個有多年合作經驗的團隊能夠在流片前杜絕IP帶來的風險?!?br />
“其二是要傾聽客戶,通用GPU算力、精度和性能的提升都是基于經驗,而經驗的來源就是客戶應用的反饋。只有客戶將產品用起來了,才能夠知道哪些方面做得好,可以在下一代產品中繼續沿用,哪些方面是需要在下一代產品中著重優化。”蓋魯江稱。
談到通用GPU產品的升級迭代,蓋魯江提到了四大方向:
·計算單元的優化,這是通用GPU一切性能提升的核心。通用GPU多核并行計算的特性決定了,如果單核性能得到提升,系統性能將會有明顯的改進。
·集群化管理能力的提升,未來的通用GPU一定是以千卡、萬卡集群的方式來提供算力,卡與卡之間的互聯技術需要重點優化。
·借助先進封裝的創新力量,包括Chiplet、3D封裝這樣的技術,未來的算力需求需要從系統層面去解決。
·針對具體應用去做突破,通用GPU的“通用性”使其不能單純只講芯片,需要結合具體的應用優化芯片。
走兼容國際主流的生態路線
2022年8月30日,天數智芯正式發布國內首個通用計算應用開發及評測平臺——DeepSpark,通過分享與落地應用深度耦合的百大算法,并針對行業需求構建多維度測評體系,廣泛支持各類落地場景,讓算力選擇不再困難,更好賦能通用計算應用開發。
DeepSpark平臺是天數智芯構建國產通用GPU生態的重要一步。確實,如蓋魯江所言,通用GPU產品是不能脫離應用談芯片的。他表示:“國際領先廠商多年來一直在構建自己的軟件生態,并取得顯著的效果,在人工智能、元宇宙和大模型浪潮中,這家廠商的軟件生態都能對硬件應用起到很好的帶動效果?!?br />
“對于天數智芯而言,生態建設的第一步就是兼容國際主流生態。基于天數智芯的通用GPU做軟件棧的開發,然后在API接口層面兼容國際主流生態,讓客戶能夠很快地將天數智芯的通用GPU用起來,實現更低的遷移成本。”蓋魯江對此說。
據介紹,目前天數智芯的團隊規模在500多人,其中硬件和軟件工程師的比例大概是1:2。
后記
在國產通用GPU這個領域,天數智芯起步較早,并且是目前國內第一家實現產品量產落地的公司。憑借先發的優勢,以及AI大模型帶來的指數級增長的算力需求,相信天數智芯在國產通用GPU上已經滾起來的雪球將會越滾越大。
-
gpu
+關注
關注
28文章
4777瀏覽量
129360 -
天數智芯
+關注
關注
0文章
97瀏覽量
5583
發布評論請先 登錄
相關推薦
評論