那曲檬骨新材料有限公司

電子發(fā)燒友App

硬聲App

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示
創(chuàng)作
電子發(fā)燒友網(wǎng)>電子資料下載>電子資料>基于AdderNet的深度學(xué)習(xí)推理加速器

基于AdderNet的深度學(xué)習(xí)推理加速器

2022-10-31 | zip | 0.19 MB | 次下載 | 免費(fèi)

資料介紹

描述

該項(xiàng)目介紹了我們對(duì)基于稱為 AdderNet 的新型深度學(xué)習(xí)模型的硬件推理加速器設(shè)計(jì)和優(yōu)化的研究。通過(guò)用絕對(duì)和 (SAD) 內(nèi)核替換計(jì)算密集型卷積 (CONV) 操作,可以通過(guò)具有成本效益的加法器/減法器電路消除大量乘法器,這可以提高計(jì)算吞吐量,因?yàn)橛布拗啤?/font>我們?cè)?FPGA 設(shè)備上展示了基線 ResNet-20 實(shí)現(xiàn) (CNN-ResNet-20) 和兩個(gè) AdderNet 設(shè)計(jì)變體 (ADD-ResNet-20) 之間的比較研究。我們利用自動(dòng) HLS(高級(jí)綜合)和手動(dòng)轉(zhuǎn)換將 SAD 操作映射到 Xilinx Zynq MPSoC 的 FPGA DSP 塊 (DSP48E2)。尤其是,當(dāng) DSP48 模塊配置為 SIMD(單指令多數(shù)據(jù))模式時(shí),我們可以用一個(gè) DSP 模塊和最少的 LUT 邏輯資源支持至少兩個(gè) SAD 操作。在這個(gè)研究階段,我們選擇使用一個(gè) DSP 來(lái)支持 2 個(gè) SAD 操作,以增加 10% 的 LUT 和 5% 的推理時(shí)間開銷為代價(jià),總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵(lì)我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略,以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個(gè) DSP ≥4 SAD 的積極 SIMD 配置來(lái)提高推理吞吐量。我們選擇使用 1 個(gè) DSP 支持 2 個(gè) SAD 操作,以增加 10% 的 LUT 和 5% 的推理時(shí)間開銷為代價(jià),總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵(lì)我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略,以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個(gè) DSP ≥4 SAD 的積極 SIMD 配置來(lái)提高推理吞吐量。我們選擇使用 1 個(gè) DSP 支持 2 個(gè) SAD 操作,以增加 10% 的 LUT 和 5% 的推理時(shí)間開銷為代價(jià),總共可以減少 45.43% 的 DSP 利用率。這些結(jié)果鼓勵(lì)我們探索新的深度學(xué)習(xí)加速器設(shè)計(jì)策略,以利用新興的基于 SAD 內(nèi)核的 AdderNet 模型以及每個(gè) DSP ≥4 SAD 的積極 SIMD 配置來(lái)提高推理吞吐量。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)已廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)領(lǐng)域。例如工業(yè)檢測(cè)、自主視覺和機(jī)器人檢測(cè)。然而,由于其大量的乘法運(yùn)算和參數(shù),很難將這些標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)部署到具有效率吞吐量和功耗的嵌入式設(shè)備中。作為一種解決方案,AdderNet 在深度神經(jīng)網(wǎng)絡(luò),尤其是卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中使用這些大規(guī)模乘法,以獲得更便宜的加法以降低計(jì)算成本。

?

poYBAGNYkzSAZtZ4AAEWACNpmlk452.png
?

?

Function.1 CNN

pYYBAGNYkzeAYSjPAAA8aQRjnxA683.png
?

Function.2 人工神經(jīng)網(wǎng)絡(luò)

?

poYBAGNYkzmAcAdtAAA8nghBA2o263.png
?

?

作為案例研究,我們選擇 ResNet-20-CIFAR10 作為基線設(shè)計(jì)。ResNet-20-CIFAR10的處理引擎如圖1所示。據(jù)我們所知,CNN 加速器有兩種通用方法:?jiǎn)蝹€(gè) PE 和多個(gè) PE。在這項(xiàng)工作中,我們?cè)趹?yīng)用程序中使用了多個(gè) PE 以獲得更好的吞吐量。

?

poYBAGNYkzyAZMbKAAD4aK2Y-co167.png
?

自動(dòng) HLS 和手動(dòng)轉(zhuǎn)換

Xilinx Vitis HLS 上的自動(dòng)綜合:

Xilinx Vitis HLS 可以從 C++ 代碼自動(dòng)生成 FPGA 項(xiàng)目。

對(duì)于 CNN-ResNet-20,綜合報(bào)告顯示該項(xiàng)目的硬件符合我們的目的。

對(duì)于 ADD-ResNet-20,合成報(bào)告并沒(méi)有遵循我們之前的目的,因?yàn)?Vitis HLS 中的 C 合成不支持將 DSP48 配置為 SIMD 模式。

我們的解決方案:

將 SAD 操作設(shè)計(jì)為 C++ 中的獨(dú)立函數(shù)。

替換 Xilinx Vitis HLS 生成的 Verilog 源文件中的 SAD 代碼。

在 Xilinx Vivado 中重新綜合該項(xiàng)目。

此外,通過(guò)編輯 SAD 代碼,我們可以為 DSP48E2 配置更多選項(xiàng)。

?

poYBAGNYkz-AZzxVAAECFa4TFRI733.png
?

Batch Normalization 融合可以減少計(jì)算量,并為模型量化提供更簡(jiǎn)潔的結(jié)構(gòu)。

如 Function.3 和 4 所示,將細(xì)化權(quán)重應(yīng)用于卷積層作為原始推理。但是考慮左邊顯示的加法器層的功能,作為卷積添加到函數(shù)中的細(xì)化權(quán)重不能用作卷積層。

由于乘法和加法的開銷,這個(gè)函數(shù)不能提供 AdderNet 的硬件優(yōu)勢(shì)。

為了避免這種開銷,我們使用額外的 for 循環(huán)來(lái)處理乘法和加法的開銷,這將花費(fèi)更多的時(shí)鐘周期和硬件。

?

?

poYBAGNYk0KANUA2AADWnMPxk8U046.png
?

DSP配置方法

在本節(jié)中,將介紹兩種 DSP48E2 配置方法:

方法 a:利用與 CONV 相同數(shù)量的 DSP,但與方法 b 相比,LUT 更少。

方法 b:利用一半的 DSP 作為 CONV,但與方法 a 相比,LUT 更多。

?

pYYBAGNYk0WAX_YnAAB6R53Kge0129.png
?

?

該報(bào)告顯示,通過(guò)比較解決方案 a、解決方案 b 和 ResNet-20 基線的結(jié)果,我們的方法可以以增加 10% 的 LUT 和 5% 的推理時(shí)間開銷為代價(jià),減少大約 45% 的 DSP 利用率。

?

pYYBAGNYk0iAV0oyAABzMg9n7XU261.png
?

?


下載該資料的人也在下載 下載該資料的人還在閱讀
更多 >

評(píng)論

查看更多

下載排行

本周

  1. 1山景DSP芯片AP8248A2數(shù)據(jù)手冊(cè)
  2. 1.06 MB  |  532次下載  |  免費(fèi)
  3. 2RK3399完整板原理圖(支持平板,盒子VR)
  4. 3.28 MB  |  339次下載  |  免費(fèi)
  5. 3TC358743XBG評(píng)估板參考手冊(cè)
  6. 1.36 MB  |  330次下載  |  免費(fèi)
  7. 4DFM軟件使用教程
  8. 0.84 MB  |  295次下載  |  免費(fèi)
  9. 5元宇宙深度解析—未來(lái)的未來(lái)-風(fēng)口還是泡沫
  10. 6.40 MB  |  227次下載  |  免費(fèi)
  11. 6迪文DGUS開發(fā)指南
  12. 31.67 MB  |  194次下載  |  免費(fèi)
  13. 7元宇宙底層硬件系列報(bào)告
  14. 13.42 MB  |  182次下載  |  免費(fèi)
  15. 8FP5207XR-G1中文應(yīng)用手冊(cè)
  16. 1.09 MB  |  178次下載  |  免費(fèi)

本月

  1. 1OrCAD10.5下載OrCAD10.5中文版軟件
  2. 0.00 MB  |  234315次下載  |  免費(fèi)
  3. 2555集成電路應(yīng)用800例(新編版)
  4. 0.00 MB  |  33566次下載  |  免費(fèi)
  5. 3接口電路圖大全
  6. 未知  |  30323次下載  |  免費(fèi)
  7. 4開關(guān)電源設(shè)計(jì)實(shí)例指南
  8. 未知  |  21549次下載  |  免費(fèi)
  9. 5電氣工程師手冊(cè)免費(fèi)下載(新編第二版pdf電子書)
  10. 0.00 MB  |  15349次下載  |  免費(fèi)
  11. 6數(shù)字電路基礎(chǔ)pdf(下載)
  12. 未知  |  13750次下載  |  免費(fèi)
  13. 7電子制作實(shí)例集錦 下載
  14. 未知  |  8113次下載  |  免費(fèi)
  15. 8《LED驅(qū)動(dòng)電路設(shè)計(jì)》 溫德爾著
  16. 0.00 MB  |  6656次下載  |  免費(fèi)

總榜

  1. 1matlab軟件下載入口
  2. 未知  |  935054次下載  |  免費(fèi)
  3. 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
  4. 78.1 MB  |  537798次下載  |  免費(fèi)
  5. 3MATLAB 7.1 下載 (含軟件介紹)
  6. 未知  |  420027次下載  |  免費(fèi)
  7. 4OrCAD10.5下載OrCAD10.5中文版軟件
  8. 0.00 MB  |  234315次下載  |  免費(fèi)
  9. 5Altium DXP2002下載入口
  10. 未知  |  233046次下載  |  免費(fèi)
  11. 6電路仿真軟件multisim 10.0免費(fèi)下載
  12. 340992  |  191187次下載  |  免費(fèi)
  13. 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
  14. 158M  |  183279次下載  |  免費(fèi)
  15. 8proe5.0野火版下載(中文版免費(fèi)下載)
  16. 未知  |  138040次下載  |  免費(fèi)
博士百家乐官网现金网| 网上百家乐公司| 百家乐官网庄的概率| 网上百家乐破战| 澳门百家乐官网海星王| 大众百家乐娱乐城| 百家乐官网技巧下载| 大发888如何注册送58| 百家乐心得分享| 安徽省| 百家乐打水论坛| 百家乐官网衬衣| 菲律宾太阳城官方网| 百家乐园云鼎赌场娱乐网规则| 百家乐官网怎样玩的| 博彩排行| 属狗与属鸡做生意| 百家乐官网三多注码法| 水果机破解器多少钱| 24山安葬择日吉凶| 百家乐官网不倒翁注码| 富田太阳城二期| 百家乐怎么玩呀| 百家乐官网开放词典新浪| 大发888资讯| 揭秘百家乐百分之50| 百家乐官网庄闲对冲| 赌场风云剧情介绍| 百家乐菲律宾| 发中发百家乐官网的玩法技巧和规则 | 三元风水24山水法| 真让百家乐官网游戏开户| 大发888娱乐城官网下载| 至尊百家乐奇热| 百家乐官网能破解| 百家乐官网榄梯打法| 大发888娱乐吧| 诸子百家乐的玩法技巧和规则| 百家乐官网作弊| 百家乐官网singapore| 百家乐国际娱乐平台|