從全面升級到Armv9架構(gòu),到公布Neoverse V1和N2平臺技術(shù)細節(jié),再到推出三款基于Armv9架構(gòu)的全新CPU內(nèi)核,短短兩個月時間里,Arm全面計算(Arm Total Compute)戰(zhàn)略正在以令人難以置信的速度加速推進,密集,但有條不紊。
何為“全面計算”
其實在2019年,Arm就提出要在共同架構(gòu)下推動全面計算,旨在解決單個IP與碎片化解決方案優(yōu)化問題時面臨的重大挑戰(zhàn),并隨后發(fā)布了Total Compute解決方案白皮書。這意味著,在解決系統(tǒng)創(chuàng)新設(shè)計的挑戰(zhàn)時,Arm需要將關(guān)注焦點逐漸從單一的產(chǎn)品演進,轉(zhuǎn)化為以應(yīng)用場景與體驗為導(dǎo)向的系統(tǒng)解決方案,要對硬件IP、物理IP、軟件、工具、以及彼此間的協(xié)作進行全面優(yōu)化。
這是在思考方式上做出的重大轉(zhuǎn)變。
Arm全新的IP設(shè)計思路可以歸納為兩點:一是以應(yīng)用場景、消費者體驗與生態(tài)系統(tǒng)的需求為核心;二是深度聚焦在性能、安全性與開發(fā)人員介入權(quán)的優(yōu)化,從而為未來的計算平臺提供安全的基礎(chǔ),提升性能與效率,給予開發(fā)人員通過整個Arm生態(tài)系統(tǒng)獲取更多性能的機會。
Arm高級副總裁兼終端設(shè)備事業(yè)部總經(jīng)理Paul Williamson表示,在全面計算的概念下,IP之間的PPA(性能、功率、面積)原則也許不再是最重要的,反而是系統(tǒng)級的性能更為重要。此外,要確保開發(fā)者擁有最佳的開發(fā)體驗、并且對每一臺設(shè)備的性能與安全功能都有更簡易的取用途徑。
來自Arm的最新統(tǒng)計數(shù)據(jù)顯示,僅在2020年Q4季度,Arm芯片合作伙伴就出貨了73億顆Arm架構(gòu)芯片(年增22%),相當(dāng)于每秒出貨超過900顆芯片、每日出貨7000萬顆芯片,創(chuàng)下出貨量歷史新高。而2020年的總出貨量更是高達250億顆(年增13%)累計總數(shù)已超過1,900 億。同時,Arm Mali GPU出貨量累計超過80億顆,其中2020年出貨超過10億,持續(xù)位居全球GPU出貨量榜首。
授權(quán)業(yè)務(wù)方面,2020財年,Arm與104家客戶簽署了162個授權(quán)協(xié)議,其中有超過一半的授權(quán)對象為首次與Arm合作的企業(yè)。Arm Flexible Access 目前已有 90 家合作伙伴,通過該計劃,這些合作伙伴可以更容易地獲取各項全球領(lǐng)先的 Arm IP、工具與支持。
按照Paul Williamson的說法,Armv9帶來了落實全面計算設(shè)計戰(zhàn)略的三大關(guān)鍵原則:首先是安全性,主要是引入內(nèi)存標簽擴展(MTE)、指針驗證(pointer authentication, PA)等新的安全技術(shù);其次是開發(fā)者可及性,例如在機器學(xué)習(xí)方面,通過支持BFloat16格式更好地去支撐Int8計算和BFloat16?的Matmul;第三是計算性能,通過提升可伸縮矢量擴展能力,能夠更好地幫助開發(fā)者對高階的應(yīng)用場景進行開發(fā),比如圖像信號處理。
“Arm正致力于將Armv9技術(shù)引入包括筆記本電腦、臺式機、云、5G網(wǎng)絡(luò)、數(shù)據(jù)中心、更多終端與車載架構(gòu)計算在內(nèi)的各個領(lǐng)域,借助移動生態(tài)系統(tǒng)的規(guī)模優(yōu)勢,以系統(tǒng)級設(shè)計最大程度地提高性能。”Paul Williamson說,目前來看,全面計算在高性能應(yīng)用場景(游戲生態(tài)、擁有豐富人工智能功能的應(yīng)用)、涉及安全功能的應(yīng)用場景(安全交易、銀行類應(yīng)用、設(shè)備端個人數(shù)據(jù)保護等)中將會擁有更高的接受度。
例如在游戲中,“我們測量了整個游戲內(nèi)容中全面計算系統(tǒng)優(yōu)化的結(jié)果,每個系統(tǒng)組件都有助于性能的提升。Cortex-A710 CPU在運行驅(qū)動工作負載時,帶來了33%的性能提升;Mali-G710帶來了20%的性能提升,我們的系統(tǒng)級IP提供了15%的效率提升。”
再比如在AI中,“不同的Arm IP上運行多樣的AI工作服在帶來的巨大性能提升。這些性能提升各異,從Mali-G710平均35%的提升,到Cortex-M55的高達700%的提升,真是針對能耗有限制的工作負載,例如關(guān)鍵字偵測。”
在多種不同應(yīng)用場景之間進行設(shè)計權(quán)衡是比較困難的。因此,Arm全面計算框架的推出為生態(tài)系統(tǒng)合作伙伴提供了跨多種應(yīng)用的可擴展性,也為具體的場景用例提供了特定的加速或增強功能,既能針對應(yīng)用場景構(gòu)建優(yōu)化的解決方案,同時也能平衡解決方案的性能和成本,這是下游設(shè)計真正需要的,在真實的用例中也非常有價值。
高筑墻,廣積糧
關(guān)于Armv9架構(gòu)和Neoverse V1/N2平臺技術(shù)的更多內(nèi)容,本刊此前曾進行過持續(xù)追蹤報道,有興趣的讀者可點擊《Armv9細節(jié)公布,Arm迎來十年最大架構(gòu)革新》、《性能如此強悍的服務(wù)器CPU對Arm意味著什么?》等文章進行了解,本文將更多介紹最新推出的IP套件,包括:首批Armv9 Cortex CPU、Mali GPU和全新的CoreLink系統(tǒng) IP,共計10款產(chǎn)品。
Arm Cortex CPU:全面計算解決方案的基石
三款A(yù)rmv9架構(gòu)的CPU核包括:旗艦級Cortex-X2、大核CPU Cortex-A710、高效率小核Cortex-A510。
其中,Cortex-X2主要面向智能手機市場,相比于Cortex-X1,性能提升16%,可將旗艦型安卓智能手機的性能在當(dāng)前基礎(chǔ)上再提升30%。除了峰值性能外,Cortex-X2還可在旗艦智能手機和筆記本電腦之間擴展,使合作伙伴可以根據(jù)市場需求來設(shè)計基于不同場景的計算能力。
Cortex-A710是首款基于Armv9架構(gòu)的大核CPU,與Cortex-A78相比,能效提升30%,性能提升10%。通過性能和效率的提升,當(dāng)智能手機運行高要求的App時,用戶將獲得比以往更長的使用時間以及更優(yōu)化的體驗。
Cortex-A510是Arm過去四年來推出的首款高效率小核,其性能提升35%,機器學(xué)習(xí)性能提升超過3倍。它所帶來的性能水平已經(jīng)接近幾年前推出的上一代大核Cortex-A73,性能差距不到10%,但能效優(yōu)化可達35%,適用于智能手機、家用設(shè)備和可穿戴設(shè)備。
Armv9-A CPU集群的支柱是新款的動態(tài)共享單元(DynamIQ Shared Unit)DSU-110,該組件可為不同的細分市場提供各種解決方案。DSU-110具備可擴展性,可支持多達八個Cortex-X2內(nèi)核配置,也難怪Williamson在介紹中說,“一臺基于Cortex-X2的筆記本電腦比起2020年市場主流的筆記本,其單線程性能可領(lǐng)先40%。“
在2021年消費設(shè)備中常見的“1超大核+3大核+4小核,4MB L3(DSU)” Tri-Cluster CPU架構(gòu)中,如果將X1替換為X2,A78替換為A710,A55替換為A510,DSU替換為DSU-110,4MB L3(DSU)替換為8MB L3(DSU-110),預(yù)計2022年終端設(shè)備的峰值性能將會提升30%,持續(xù)性能將會提升30%,小核性能將會提升35%。
面向細分市場的新款 Arm Mali GPU套件
視覺體驗仍然是消費者與設(shè)備交互、并享用設(shè)備的關(guān)鍵,Arm新推出面向廣泛應(yīng)用的多款GPU,搭配Armv9 CPU,繼續(xù)提升用戶體驗。
最新的Arm Mali-G710是針對旗艦智能手機和Chromebook筆記本市場的高性能 GPU,在計算密集型體驗方面的性能提升20%(如AAA高保真游戲)。對于與機器學(xué)習(xí)有關(guān)的任務(wù)(如全新相機和視頻模式的圖像增強),Mali-G710也帶來35%的機器學(xué)習(xí)性能提升。
作為次旗艦GPU,Mali-G610繼承了Mali-G710 的功能,但價格更低,可將高階應(yīng)用場景帶給更多的開發(fā)者和消費者。
Mali-G510實現(xiàn)了性能和效率的較好平衡,在中端智能手機、旗艦智能電視和機頂盒上,實現(xiàn)了100%的性能提升以及22%的節(jié)能優(yōu)化,從而延長了電池續(xù)航時間,提升了100%的機器學(xué)習(xí)性能。
Mali-G310是Arm目前最高效的GPU,以最小的面積成本提供了最高的性能。通過Mali-G310,Valhall架構(gòu)和高質(zhì)量圖形技術(shù)將被引入到更低成本的設(shè)備中,例如入門級智能手機、AR設(shè)備和可穿戴設(shè)備。
提升系統(tǒng)性能的互連技術(shù)
互連技術(shù)對于提高系統(tǒng)性能至關(guān)重要。最新的CoreLink CI-700一致性互連技術(shù)和CoreLink NI-700片上網(wǎng)絡(luò)互連技術(shù),可與Arm CPU、GPU和NPU IP無縫搭配,跨 SoC解決方案增強系統(tǒng)性能。CoreLink CI-700和CoreLink NI-700對新的Armv9-A功能提供硬件級支持,如內(nèi)存標簽擴展(Memory Tagging Extension),支持更高的安全性、改進的帶寬和延遲。
可以看出,全新的全面計算解決方案是系統(tǒng)范圍內(nèi)整體優(yōu)化的思路,橫跨硬件 IP、物理 IP、軟件、工具和標準,能夠為合作伙伴提供更為廣泛的選擇,以滿足細分市場的應(yīng)用場景和成本區(qū)間需求。同時,這也將解鎖整個生態(tài)系統(tǒng)的新體驗,例如,專為移動設(shè)備設(shè)計、支持 AI 功能的交互式應(yīng)用場景,可以使用戶身臨其境觀看電視8K內(nèi)容等體驗。
2023年移動應(yīng)用產(chǎn)品僅提供64位大、小核
隨著IP戰(zhàn)略的升級,Arm宣布,將在2023 年面向移動應(yīng)用僅提供64位的大核和小核。為此,Arm全球合作伙伴正在努力確保所有App都將在今年年底前支持64位。
據(jù)Paul Williamson介紹,Cortex-X2是完全面向智能手機市場的產(chǎn)品,預(yù)計在未來幾代手機產(chǎn)品中就能看到Cortex-X2的身影。對智能手機和其他終端計算設(shè)備而言,64位將提供終極的性能表現(xiàn)。Arm目前正與中國應(yīng)用商店生態(tài)合作伙伴進行密切協(xié)作,確保主要App都能在今年年底前支持 64 位,從而為中國消費者提供Cortex-X2所帶來的性能提升體驗。
Arm方面透露,向64位過渡需要分階段實現(xiàn),目前,Cortex-X2、Cortex-A510已經(jīng)是64位CPU,A710仍然支持32位。預(yù)計到2023年,Arm在移動應(yīng)用的大核跟小核都將僅支持64位。
結(jié)語:
Paul Williamson總結(jié)稱,Arm合作伙伴希望能夠?qū)⑿缕犯焖俚赝葡蚴袌觯嬗嬎憬鉀Q方案包含了SoC設(shè)計流程中所需要的一切組件:硬件 IP、軟件、物理IP、工具和標準,將使合作伙伴在應(yīng)對所有終端市場上SoC復(fù)雜性時受益,讓他們能夠滿懷信心地通過最新的技術(shù),將高性能的產(chǎn)品快速推向市場。
責(zé)任編輯:pj
-
芯片
+關(guān)注
關(guān)注
456文章
51188瀏覽量
427288 -
ARM
+關(guān)注
關(guān)注
134文章
9168瀏覽量
369222 -
cpu
+關(guān)注
關(guān)注
68文章
10904瀏覽量
213027 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9306瀏覽量
86069
發(fā)布評論請先 登錄
相關(guān)推薦
評論