那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何對推理加速器進行基準測試

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Geoff Tate ? 2022-06-06 16:02 ? 次閱讀

在過去的十年中,神經網絡已經從有趣的研究發展到廣泛應用于語言翻譯、關鍵詞識別和對象識別。

長期以來,神經網絡僅限于具有運行神經網絡所需的計算資源的數據中心,最初是在微處理器上,然后越來越多地在 GPU 上,因為 GPU 具有運行神經網絡所需的更多 MAC。

英偉達最近宣布,其推理產品的銷售額首次超過了培訓產品的銷售額。

隨著推理移動到電力和成本預算受限的邊緣(數據中心之外的任何地方),客戶正在尋找能夠以他們能夠承受的價格和電力提供所需吞吐量的推理加速器。

本博客討論如何對推理加速器進行基準測試,以找到最適合您的神經網絡的加速器;以及客戶在學習曲線上通常如何發展他們對基準測試的思考。神經網絡推理令人興奮但也很復雜,因此最初非常令人困惑。當客戶解決問題時,燈會逐步亮起。

首先讓我們回顧一下推理加速器的常見元素以及它們運行的??神經網絡。

所有推理加速器的共同元素

所有推理加速器都有以下共同點:

MAC(很多)

片上 SRAM

片外DRAM

控制邏輯

所有單元之間的片上互連

推理加速器之間的元素和組織的數量差異很大;組織 MAC 的方法;MAC 與 SRAM/DRAM 的比率;以及它們之間的數據如何流動對于確定加速器的實際加速情況至關重要。

所有神經網絡模型的共同元素

所有神經網絡都包含以下元素:

數值選擇:32 位浮點(模型訓練時使用的),

16 位浮點、16 位整數或 8 位整數

輸入數據:圖像、音頻、文本等

幾十到幾百層,每層處理前一層的激活,并將輸出激活傳遞到下一層

模型每一層的權重

TOPS - 推理基準測試的第一階段

剛接觸神經網絡性能估計的客戶幾乎總是先問“你的芯片/模塊/板有多少 TOPS?” 因為他們假設 TOPS 和吞吐量相關 - 但事實并非如此。

TOPS 是每秒萬億次操作的首字母縮寫詞,可用 MAC 的數量(以千計)乘以 MAC 運行的頻率(以千兆赫茲為單位)乘以 2(一個 MAC = 兩個操作)。因此,簡單來說,1GHz 的 1K MAC = 2 TOPS。

更多 MAC 意味著更多 TOPS。

重要的是內存組織和互連是否可以保持 MAC 的“饋送”,從而使它們得到高度利用,從而在模型上產生高吞吐量。

ResNet-50 - 推理基準測試的第二階段

一旦客戶意識到重要的指標是吞吐量,他們通常會繼續詢問,“ResNet-50 的芯片/模塊/板的推理/秒吞吐量是多少?”

MLPerf 最近發布了眾多制造商提交的 ResNet-50 基準。

ResNet-50 是一種流行的 CNN(卷積神經網絡),用于對圖像進行分類,多年來一直廣泛用于基準測試。

問題是,沒有客戶真正使用 ResNet-50。

客戶詢問 ResNet-50 是因為他們假設他們模型上的芯片/模塊/板的吞吐量將與 ResNet-50 吞吐量相關。

這個假設的兩個主要缺陷是:

ResNet-50 使用 224x224 圖像,但大多數客戶希望處理 16 倍以上的百萬像素圖像。ResNet-50 對于 224x224 圖像可能在芯片/模塊/板上運行良好,但可能不適用于百萬像素圖像,因為較大的圖像比較小的圖像對內存子系統的壓力更大。對于 2 兆像素的圖像,中間激活可以是 64 兆字節,而對于 224x224 圖像,中間激活最多為幾兆字節。

批量大小:制造商希望引用他們可以為基準測試的最大數字,因此他們的 ResNet-50 基準數字通常是他們可以運行的最大批量大小。但對于邊緣應用程序,幾乎所有應用程序都需要批量大小 = 1 以實現最小延遲。考慮一輛車:如果你正在尋找像行人這樣的物體,你需要盡快意識到它們。因此,大批量可能會最大化吞吐量,但在邊緣需要的是最小延遲,即批量大小為 1。

如果 ResNet-50 在批量大小 = 1 的百萬像素圖像上運行,則它對于真實世界模型來說并不是一個糟糕的基準。但它不是通常使用的一個好的基準。

真實世界模型和圖像 - 推理基準測試的第三階段

客戶在學習曲線中達到的下一個階段是他們應該找到一個具有與他們相似特征的開源神經網絡模型:相似類型的模型(CNN 或 RNN 或 LSTM),相似大小的圖像(或其他輸入類型),相似的層數和相似的操作。

例如,對 CNN 感興趣的客戶他們最常問的問題是:“對于 2 兆像素(或 1 或 4),YOLOv2(或 YOLOv3)的每秒幀數是多少?”

真正有趣的是,盡管大多數客戶都想了解 YOLOv2/v3,但幾乎沒有制造商為其提供基準(一個例外是 Nvidia Xavier,它將 YOLOv3 的基準為 608x608 或 1/3 兆像素)。

YOLOv3 是一個壓力很大的基準測試,它很好地測試了推理加速器的魯棒性:6200 萬個權重;100+層;和超過 3000 億個 MAC 來處理單個 2 兆像素圖像。對該模型進行基準測試顯示了加速器是否可以同時獲得高 MAC 利用率、管理存儲讀取/寫入而不會使 MAC 停滯,以及互連是否可以在內存和 MAC 之間有效移動數據而不會停滯計算。

當然,不僅僅是吞吐量很重要,實現吞吐量的成本和功率也很重要。

2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能遠遠超出您的預算。

客戶考慮的另一件事是他們計劃運行的模型的吞吐量效率、吞吐量/美元和吞吐量/瓦特

第 4 階段:對吞吐量、功率和成本的實際模型進行基準測試

客戶對基準推理學習曲線的最后階段是開發自己的模型,使用通常來自 Nvidia 或數據中心的訓練硬件/軟件,然后在可能的目標推理加速器上對該模型進行基準測試。

通過這種方式,客戶可以真正判斷哪個加速器將為他們提供最佳的吞吐量效率。

終點似乎很明顯,但事后諸葛亮。神經網絡推理非常復雜,所有客戶都要經過學習曲線才能得出正確的結論。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101176
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4777

    瀏覽量

    129360
  • 數據中心
    +關注

    關注

    16

    文章

    4860

    瀏覽量

    72384
收藏 人收藏

    評論

    相關推薦

    從版本控制到全流程支持:揭秘Helix Core如何成為您的創意加速器

    加速器
    龍智DevSecOps
    發布于 :2024年11月26日 13:42:47

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的
    的頭像 發表于 10-29 14:12 ?762次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b><b class='flag-5'>加速</b>中的應用

    AMD助力HyperAccel開發全新AI推理服務

    ( LLM )的推理,此類模型通常具有數十億個參數,例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時延處理單元( LPU ),是專門用于 LLM 端到端推理的硬件加速
    的頭像 發表于 09-18 09:37 ?486次閱讀
    AMD助力HyperAccel開發全新AI<b class='flag-5'>推理</b>服務<b class='flag-5'>器</b>

    具有邊沿速率加速器的TXB和TXS電壓電平轉換的注意事項

    電子發燒友網站提供《具有邊沿速率加速器的TXB和TXS電壓電平轉換的注意事項.pdf》資料免費下載
    發表于 09-04 09:52 ?0次下載
    具有邊沿速率<b class='flag-5'>加速器</b>的TXB和TXS電壓電平轉換<b class='flag-5'>器</b>的注意事項

    利用邊沿速率加速器和自動感應電平轉換

    電子發燒友網站提供《利用邊沿速率加速器和自動感應電平轉換.pdf》資料免費下載
    發表于 09-02 11:58 ?1次下載
    利用邊沿速率<b class='flag-5'>加速器</b>和自動感應電平轉換<b class='flag-5'>器</b>

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、
    的頭像 發表于 07-24 11:38 ?1017次閱讀

    什么是神經網絡加速器?它有哪些特點?

    )和圖形處理(GPU)雖然可以處理神經網絡計算,但在能效比和計算密度上往往難以滿足特定應用場景的需求。因此,神經網絡加速器應運而生,它通過優化硬件架構和算法實現,針對神經網絡計算的特點進行定制化設計,以達到更高的計算效率和更低
    的頭像 發表于 07-11 10:40 ?579次閱讀

    “白地板”方案,智算中心加速器

    明德源能白地板方案,智算中心加速器
    的頭像 發表于 06-21 11:54 ?849次閱讀

    Arm發布新一代Ethos-U AI加速器 Arm旨在瞄準國產CPU市場

    Arm發布的新一代Ethos-U AI加速器確實在業界引起了廣泛關注。
    的頭像 發表于 04-18 15:59 ?824次閱讀

    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI加速器支持Transformer 架構,性能提升四倍

    電子發燒友網報道(文/黃晶晶)在嵌入式領域,邊緣與端側AI推理需求不斷增長,Arm既有Helium 技術使 CPU 能夠執行更多計算密集型的 AI 推理算法,也有Ethos 系列 AI 加速器,以
    的頭像 發表于 04-16 09:10 ?4729次閱讀
    Arm推動生成式AI落地邊緣!全新Ethos-U85 AI<b class='flag-5'>加速器</b>支持Transformer 架構,性能提升四倍

    UL Procyon AI 發布圖像生成基準測試,基于Stable Diffusion

    UL去年發布的首個Windows版Procyon AI推理基準測試,以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統一、精
    的頭像 發表于 03-25 16:16 ?966次閱讀

    Hitek Systems開發基于PCIe的高性能加速器以滿足行業需求

    Hitek Systems 使用開放式 FPGA 堆棧 (OFS) 和 Agilex 7 FPGA,以開發基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在滿足網絡、計算和高容量存儲應用的需求。
    的頭像 發表于 03-22 14:02 ?710次閱讀
    Hitek Systems開發基于PCIe的高性能<b class='flag-5'>加速器</b>以滿足行業需求

    瑞薩發布下一代動態可重構人工智能處理加速器

    瑞薩最新發布的動態可重構人工智能處理(DRP-AI)加速器,在業界引起了廣泛關注。這款加速器擁有卓越的10 TOPS/W高功率效率,相比傳統技術,效率提升了驚人的10倍。其獨特之處在于,它能在低功耗的傳統嵌入式處理
    的頭像 發表于 03-08 13:45 ?829次閱讀

    使用NVIDIA Triton推理服務加速AI預測

    這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務加速 AI 預測。
    的頭像 發表于 02-29 14:04 ?634次閱讀

    家居智能化,推動AI加速器的發展

    電子發燒友網報道(文/黃山明)AI加速芯片,也稱為人工智能加速器(AI Accelerator),是一種專為執行機器學習和深度學習任務而設計的ASIC或定制化處理。在智能家居中,AI加速
    的頭像 發表于 02-23 00:18 ?4686次閱讀
    澳门百家乐官方网址| 可以玩百家乐官网的博彩网站| 彩票预测| 澳门线上赌场| 优博娱乐在线| 云龙县| 百家乐官网怎么样玩| 百家乐官网是骗人吗| 噢门百家乐官网玩法| 基础百家乐官网规则| 圣淘沙百家乐官网的玩法技巧和规则| 玩百家乐去哪个娱乐城最安全| 免费百家乐过滤软件| 大发888打不开| 万豪娱乐| 嘉禾县| 百家乐官网威尼斯人| 正品百家乐官网玩法| 百家乐玩法开户彩公司| 百家乐tt娱乐场开户注册| 威尼斯人娱乐网反| 棋牌室高尔夫娱乐场| 通化县| 百家乐官网赌博筹码大不大| 24山分阴阳| 澳门百家乐网上赌博| 大发888博彩官方下载| 求购百家乐官网程序| 百家乐官网双龙出海| 风水八运24山向吉凶飞星图| 百家乐赌博玩法技巧| 大发888娱乐城真人视讯服务 | 百威百家乐的玩法技巧和规则| 大发888 dafa888 大发官网| 百家乐官网单跳投注法| 新东泰百家乐官网的玩法技巧和规则| 网上百家乐真实吗| 二八杠麻将做记号| 百家乐官网扑克玩法| 红桃K百家乐官网娱乐城| 百家乐三路法|