那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI/ML應用和處理器的架構探索

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:嵌入式計算設計 ? 2022-11-24 16:05 ? 次閱讀

人工智能應用的架構探索很復雜,涉及多項研究。首先,我們可以針對單個問題,例如內存訪問,也可以查看整個處理器或系統。

行業背景

人工智能 (AI) 應用考慮了計算、存儲、內存、管道、通信接口、軟件和控制。此外,人工智能應用程序處理可以分布在處理器內的多核、PCIe 主干上的多個處理器板、分布在以太網中的計算機、高性能計算機或數據中心的系統。此外,AI處理器還具有巨大的內存大小要求,訪問時間限制,跨模擬和數字的分布以及硬件 - 軟件分區。

問題

人工智能應用的架構探索很復雜,涉及多項研究。首先,我們可以針對單個問題,例如內存訪問,也可以查看整個處理器或系統。大多數設計都是從內存訪問開始的。有很多選擇 - SRAMDRAM、本地與分布式存儲、內存計算以及緩存反向傳播系數與丟棄。

第二個評估扇區是總線或網絡拓撲。虛擬原型可以具有用于處理器內部的片上網絡、TileLink 或 AMBA AXI 總線、用于連接多處理器板和機箱的 PCIe 或以太網,以及用于訪問數據中心的 Wifi/5G/Internet 路由器。

使用虛擬原型的第三個研究是計算。這可以建模為處理器內核、多處理器、加速器、FPGA、多重累加和模擬處理。最后部分是傳感器、網絡、數學運算、DMA、自定義邏輯、仲裁器、調度程序和控制函數的接口

此外,人工智能處理器和系統的架構探索具有挑戰性,因為它在硬件的全部功能上應用了數據密集型任務圖。

模型構建

在Mirabilis,我們使用VisualSim進行AI應用程序的架構探索。VisualSim 的用戶在圖形離散事件仿真平臺中非常快速地組裝虛擬原型,該平臺具有大型 AI 硬件和軟件建模組件庫。該原型可用于進行時序、吞吐量、功耗和服務質量權衡。提供超過20個AI處理器和嵌入式系統模板,以加速新AI應用程序的開發。

為 AI 系統中的權衡生成的報告包括響應時間、吞吐量、緩沖區占用、平均功耗、能耗和資源效率。

ADAS模型構建

首先,讓我們考慮自動駕駛(ADAS)應用程序,這是圖1中的一種AI部署形式。ADAS應用程序與計算機或電子控制單元(ECU)和網絡上的許多應用程序共存。ADAS任務還依賴于現有系統的傳感器和執行器才能正常運行。

pYYBAGN_JdqAR5YfAAEES646J4Y549.png

圖1.汽車設計中 AI 應用的邏輯到物理架構

早期架構權衡可以測試和評估假設,以快速識別瓶頸,并優化規范以滿足時序、吞吐量、功耗和功能要求。在圖 1 中,您將看到架構模型需要硬件、網絡、應用任務、傳感器、衰減器和流量激勵來了解整個系統的運行情況。圖 2 顯示了映射到物理架構的此 ADAS 邏輯架構的實現。

架構模型的一個很好的功能是能夠分離設計的所有部分,以便可以研究單個操作的性能。在圖 2 中,您會注意到單獨列出了現有任務、帶有 ECU 的網絡、傳感器生成和 ADAS 邏輯任務組織。ADAS任務圖中的每個功能都映射到ECU。

poYBAGN_JduAOSgKAADasL3DLdA433.png

圖2.將ADAS映射到ECU網絡的汽車系統的系統模型

自動輔助系統分析

仿真圖2中的ADAS模型時,您可以獲得各種報告。圖3顯示了完成ADAS任務的延遲以及電池為此任務散發的相關熱量。其他感興趣的圖可以是測量的功率、網絡吞吐量、電池消耗、CPU 利用率和緩沖區占用。

pYYBAGN_Jd2ALAJtAAEssesCUVA248.png

圖3.來自 ADAS 架構模型的分析報告

處理器模型構建

AI 處理器和系統的設計人員對應用程序類型、訓練與推理、成本點、功耗和大小限制進行實驗。例如,設計人員可以將子網絡分配給流水線階段,權衡深度神經網絡 (DNN) 與傳統機器學習算法,測量 GPU、TPU、AI 處理器、FPGA 和傳統處理器上的算法性能,評估在芯片上融合計算和內存的優勢,計算類似于人腦功能的模擬技術的功耗影響,以及構建具有針對單個應用的部分功能集的 SoC。

從PowerPoint到新AI處理器的第一個原型的時間表非常短,第一個生產樣品不能有任何瓶頸或錯誤。因此,建模成為強制性的。

圖 4 顯示了 Google 張量處理器的內部視圖。框圖已轉換為圖 5 中的架構模型。處理器通過 PCIe 接口接收來自主機的請求。MM、TG2、TG3 和 TG4 是來自獨立主機的不同請求流。權重存儲在片外 DDR3 中,并調用到權重 FIFO 中。到達的請求在統一本地緩沖區中存儲和更新,并發送到矩陣動車單元進行處理。通過 AI 管道處理請求后,它將返回到統一緩沖區以響應主機。

poYBAGN_Jd6AI5A2AAEnxYMrJAI651.png

圖4.來自谷歌的 TPU-1

pYYBAGN_JeGATnTXAAC7tiZxZao461.png

圖5.AI 硬件架構的 VisualSim 模型的俯視圖

處理器模型分析

在圖 6 中,您可以查看片外 DDR3 中的延遲和反向傳播權重管理。延遲是從主機發送請求到接收響應的時間。您將看到TG3和TG4能夠分別在200 us和350 us之前保持低延遲。MM和TG2在仿真早期開始緩沖。由于存在相當大的緩沖,并且這組流量配置文件的延遲正在增加,因此當前的 TPU 配置不足以處理負載和處理。TG3和TG4的優先級較高,有助于維持更長的運營時間。

poYBAGN_JeKAPOJEAAC7VBa4AOA020.png

圖6.架構探索權衡的統計信息

汽車設計施工

poYBAGN_JeSAP5UZAABeix-IXC4742.png

圖7.帶有CAN總線、傳感器和ECU的汽車網絡

當今的汽車設計融合了許多安全和自動駕駛功能,需要大量的機器學習和推理。可用的時間表將決定處理是在ECU完成還是發送到數據中心。例如,可以在本地完成制動決策,同時可以發送更改空調溫度進行遠程處理。兩者都需要基于輸入傳感器和攝像頭的一定數量的人工智能。

圖 7 是包含 ECU、CAN-FD、以太網和網關的網絡框圖。

pYYBAGN_JeWAbE5-AAEkoRyFlrI302.png

圖8.自動駕駛和E/E架構的可視化模擬模型

圖 8 捕獲了圖 7 的一部分,該部分將 CAN-FD 網絡與包含多個 ARM 內核和一個 GPU 的高性能 Nvidia DrivePX 集成在一起。以太網/TSN/AVB 和網關已從模型中刪除,以簡化視圖。在此模型中,重點是了解 SoC 的內部行為。該應用程序是由車輛上的攝像頭傳感器觸發的 MPEG 視頻捕獲、處理和渲染。

汽車設計分析

圖 9 顯示了 AMBA 總線和 DDR3 內存的統計信息。您可以查看工作負載在多個主節點之間的分布情況。可以評估應用程序管道的瓶頸,確定最高周期時間任務、內存使用情況配置文件以及每個任務的延遲。

poYBAGN_JeeAF31RAADY4II5VjY333.png

圖9.總線和內存活動報告

用例和流量模式應用于組裝為硬件、RTOS 和網絡組合的架構模型。定期交通狀況用于對雷達、激光雷達和攝像頭進行建模,而用例可以是自動駕駛、聊天機器人、搜索、學習、推理、大數據操作、圖像識別和疾病檢測。用例和流量可以根據輸入速率、數據大小、處理時間、優先級、依賴性、先決條件、反向傳播循環、系數、任務圖和內存訪問而變化。通過改變屬性在系統模型上模擬用例。這會導致生成各種統計信息和繪圖,包括緩存命中率、管道利用率、拒絕的請求數、每條指令或任務的瓦數、吞吐量、緩沖區占用和狀態圖。

pYYBAGN_JeiAW6vAAACYtpBw9Uc610.png

圖 10.實時測量 AI 處理器的功耗

圖10顯示了系統和芯片的功耗。除了散熱、電池充電消耗率和電池生命周期變化外,該模型還可以捕獲動態功率變化。該模型繪制了每個器件的狀態活動、相關的瞬時尖峰和系統的平均功耗。獲得有關功耗的早期反饋有助于熱和機械團隊設計外殼和冷卻方法。大多數機箱對每個板都有最大功率限制。這種早期的功耗信息可用于執行架構與性能的權衡,從而尋找降低功耗的方法。

進一步的勘探方案

以下是一些其他示例,重點介紹了如何使用 AI 體系結構模型和分析。

1. 自動駕駛系統,配備360度激光掃描儀、立體攝像頭、魚眼攝像頭、毫米波雷達、聲納或激光雷達,通過網關連接的多個IEEE802.1Q網絡上的20個ECU連接。原型用于測試 OEM 硬件配置的功能包,以確定硬件和網絡要求。主動安全措施的響應時間是主要標準。

2. 用于學習和推理任務的人工智能處理器使用片上網絡主干網定義,該骨干網由 32 個內核、32 個加速器、4 個 HBM2.0、8 個 DDR5、多個 DMA 和全緩存一致性組成。該模型試驗了 RISC-V、ARM Z1 和專有內核的變體。實現的目標是在鏈路上實現 40Gbps,同時保持低路由器頻率并重新訓練網絡路由。

3. 需要 32 層深度神經網絡才能將內存從 40GB 增加到 7GB 以下。數據吞吐量和響應時間未更改。該模型是使用行為的功能流程圖設置的,其中包含處理和反向傳播的內存訪問。對于不同的數據大小和任務圖,該模型確定了數據的丟棄量以及各種片外DRAM大小和SSD存儲選項。任務圖通過任意數量的圖和多個輸入和輸出而變化。

4. 通用SoC,使用ARM處理器和AXI總線進行低成本AI處理。目標是獲得最低的每瓦功率,從而最大化內存帶寬。乘法累加函數被卸載到矢量指令,加密到IP核,自定義算法卸載到加速器。構建該模型的明確目的是評估不同的緩存內存層次結構,以提高命中率和總線拓撲以減少延遲。

5. 模數AI處理器需要對功耗進行徹底分析,并對所達到的吞吐量進行準確分析。在該模型中,非線性控制在離散事件模擬器中建模為一系列線性函數,以加快仿真時間。在本例中,對功能進行了測試,以檢查行為并衡量真正的節能效果。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19409

    瀏覽量

    231207
  • FPGA
    +關注

    關注

    1630

    文章

    21798

    瀏覽量

    606064
  • 人工智能
    +關注

    關注

    1796

    文章

    47683

    瀏覽量

    240316
收藏 人收藏

    評論

    相關推薦

    ARM發布兩款針對移動終端的AI芯片架構:物體檢測和機器學習處理器

    ARM發布了兩款針對移動終端的AI芯片架構,物體檢測(Object Detection,簡稱OD)處理器和機器學習(Machine Learning,簡稱ML
    的頭像 發表于 02-23 11:59 ?7434次閱讀
    ARM發布兩款針對移動終端的<b class='flag-5'>AI</b>芯片<b class='flag-5'>架構</b>:物體檢測和機器學習<b class='flag-5'>處理器</b>

    昇騰AI處理器:Ascend310和CANN簡介

    Ascend310 AI處理器邏輯架構昇騰AI處理器的主要架構組成:芯片系統控制CPU(Cont
    發表于 06-05 14:09 ?1.4w次閱讀
    昇騰<b class='flag-5'>AI</b><b class='flag-5'>處理器</b>:Ascend310和CANN簡介

    Alif Semiconductor宣布推出先進的BLE和Matter無線微控制,搭載適用于AI/ML工作負載的神經網絡協同處理器

    4 月 18 日 -先進的安全、互聯、節能的人工智能和機器學習(AI/ML)微控制(MCU)和融合處理器供應商Alif Semiconductor?今天宣布推出Balletto?系
    發表于 04-18 17:51 ?705次閱讀
    Alif Semiconductor宣布推出先進的BLE和Matter無線微控制<b class='flag-5'>器</b>,搭載適用于<b class='flag-5'>AI</b>/<b class='flag-5'>ML</b>工作負載的神經網絡協同<b class='flag-5'>處理器</b>

    多核處理器的優點

    的功耗更低、計算功耗產生的熱量更少。多核架構能夠使目前的軟件更出色地運行,并創建一個促進未來的軟件編寫更趨完善的架構。盡管認真的軟件廠商還在探索全新的軟件并發處理模式,隨著向多核
    發表于 06-20 06:47

    淺談ARM處理器架構

    ,新的 Cortex-M處理器家族設計的非常容易使用。因此,ARM 微控制處理器在單片機和深度嵌入式系統市場非常成功和受歡迎。二、ARM三個系列處理器特點三、目前,有哪些
    發表于 08-18 12:04

    AI的鯉躍龍門之路:AI探索技藝

    1. 學AI的出發點:如何提取特徵(Feature)說明: AI學習(Machine Learning)的基礎活動之一就是:提取特徵(Feature extraction)。在本文裡,藉由舉例
    發表于 11-30 17:11

    ARM公版架構 真的是麒麟處理器的槽點嗎?

    只要出現麒麟處理器,那么必定會有很多人糾結于其使用的是ARM的公版架構,或者用之作為麒麟處理器的弱點進行攻擊。那么,在筆者看來,拿采用ARM公版架構來否認麒麟
    發表于 01-04 16:24 ?3159次閱讀
    ARM公版<b class='flag-5'>架構</b> 真的是麒麟<b class='flag-5'>處理器</b>的槽點嗎?

    主流AI處理器的制程、架構和市場發展對比分析

    小編比較了目前主流“AI處理器”的技術和市場發展,并用表格的形式列出了它們的制程、架構及應用。
    的頭像 發表于 02-09 09:50 ?9671次閱讀
    主流<b class='flag-5'>AI</b><b class='flag-5'>處理器</b>的制程、<b class='flag-5'>架構</b>和市場發展對比分析

    音頻處理器架構_音頻處理器的延時怎么調整

    本文主要闡述了音頻處理器架構與音頻處理器延時的調整方法。
    發表于 04-09 11:01 ?5354次閱讀

    處理器架構探索的混合創新

      混合處理器是電子設計行業的一項重大創新。它為架構師提供了更多的權力,并使團隊能夠在開發之前可視化系統行為。由
    的頭像 發表于 06-01 15:50 ?962次閱讀
    <b class='flag-5'>處理器</b><b class='flag-5'>架構</b><b class='flag-5'>探索</b>的混合創新

    AI/ML應用和處理器架構探索

      1. 360度激光掃描儀、立體攝像頭、魚眼攝像頭、毫米波雷達、聲納或激光雷達的自動駕駛系統,通過網關連接到多個IEEE802.1Q網絡上的20個ECU。該原型用于測試 OEM 硬件配置的功能包,以確定硬件和網絡要求。主動安全行動的響應時間是主要標準。
    的頭像 發表于 07-08 17:03 ?1071次閱讀
    <b class='flag-5'>AI</b>/<b class='flag-5'>ML</b>應用和<b class='flag-5'>處理器</b>的<b class='flag-5'>架構</b><b class='flag-5'>探索</b>

    用于處理器架構探索的混合創新

      不幸的是,架構探索未能起飛,除了在公司投入大量資源和時間的利基口袋。架構探索一直被高度誤解,并且已經推出了聲稱架構
    的頭像 發表于 11-21 16:01 ?520次閱讀

    處理器架構與指令集

    大家天天都在使用手機,你知道你的手機使用的什么處理器處理器又是何種架構呢?今天筆者就來談談處理器架構和指令集。 我們知道一臺手機最重要的
    的頭像 發表于 04-26 11:40 ?3758次閱讀
    <b class='flag-5'>處理器</b><b class='flag-5'>架構</b>與指令集

    簡單認識MIPS架構處理器

    無互鎖流水級微處理器 (Microprocessors without Interlocked Pipeline Stages,MIPS) 是流行的 RISC 架構處理器之一。其原理是盡量利用軟件
    的頭像 發表于 11-29 09:14 ?2071次閱讀
    簡單認識MIPS<b class='flag-5'>架構</b><b class='flag-5'>處理器</b>

    聯發科或將與英偉達開發Arm架構AI PC處理器

    據悉,聯發科正與英偉達合作,共同開發基于Arm架構AI PC處理器。這款新芯片預計將在第三季度完成設計定案,第四季度進入驗證階段。
    的頭像 發表于 05-13 10:18 ?588次閱讀
    六合彩下注网| 太阳城百家乐注册平台| 百家乐官网的玩法技巧和规则| 百家乐官网破解秘籍| 百家乐官网五湖四海娱乐平台| 怎么赌百家乐官网能赢| 蓝盾百家乐官网赌场娱乐网规则| 百家乐官网的珠盘| 百家乐官网国际娱乐场| 伯爵百家乐官网娱乐| 赌百家乐官网的玩法技巧和规则| 免费百家乐官网过滤软件| 百家乐软件l柳州| 澳门百家乐娱乐城送彩金| 百家乐桌定制| 太阳城百家乐官网祖玛| 大发888游戏网址| 威尼斯人娱乐城线上博彩| 兄弟百家乐的玩法技巧和规则| 在线百家乐下注| 百家乐分| 大发888娱乐场18| 联众棋牌游戏大厅| 皇冠现金网娱乐城| 百家乐官网有好的投注法吗| 罗马百家乐官网的玩法技巧和规则| 乐九百家乐娱乐城| 博彩网百家乐的玩法技巧和规则| 大发888游戏客户端下载| 真钱赌博| 基础百家乐官网博牌| 线上百家乐赢钱| 大发8888娱乐场| 芒康县| 百家乐官网输一押二| 什么是百家乐平注法| 大发888游戏代冲省钱技巧| 兴城市| 好望角百家乐官网的玩法技巧和规则| 申博百家乐公式软件| 顶级赌场连环夺宝ios下载|