@[toc]
如果我能看得更遠(yuǎn)一點的話,那是因為我站在巨人的肩膀上。 —牛頓
存內(nèi)計算的背景
存內(nèi)計算是一種革新性的計算范式,旨在克服傳統(tǒng)馮·諾依曼架構(gòu)的局限性。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的馮·諾依曼架構(gòu)由于處理單元和存儲器互相分離,帶來了巨大的延時和能耗,承受著高昂的數(shù)據(jù)傳輸成本,即所謂的“馮·諾依曼瓶頸”。為了解決這個問題,存內(nèi)計算應(yīng)運而生。
存內(nèi)計算架構(gòu)在功能和物理上合并了數(shù)據(jù)處理和存儲單元,在數(shù)據(jù)存儲的位置即處理數(shù)據(jù),在器件層面以原位的方式執(zhí)行計算。這種方式可以避免頻繁的數(shù)據(jù)通信,從而減少相應(yīng)的延時和能耗。存儲器是存內(nèi)計算的核心器件,這種架構(gòu)的需求同時也促進(jìn)了新型非易失性存儲器(NVM)的發(fā)展。
早期,由于大數(shù)據(jù)、人工智能、云計算等需要大量數(shù)據(jù)處理的應(yīng)用還沒展開,存內(nèi)計算僅僅停留在理論研究階段,并未實現(xiàn)實際的應(yīng)用。然而,近年來隨著這些應(yīng)用的興起,人們再次關(guān)注存內(nèi)計算的研究。世界知名的IC企業(yè)和高校都推出了存內(nèi)計算的架構(gòu)。
存內(nèi)計算的研究還涉及模擬式憶阻器等重要器件,這些器件可以支持各種模擬計算應(yīng)用,包括人工神經(jīng)網(wǎng)絡(luò)(ANN)、機(jī)器學(xué)習(xí)、科學(xué)計算和數(shù)字圖像處理等,展現(xiàn)出了突出的潛力。
首個存內(nèi)計算開發(fā)者社區(qū)-CSDN存內(nèi)計算
全球首個存內(nèi)計算社區(qū)創(chuàng)立,涵蓋最豐富的存內(nèi)計算內(nèi)容,以存內(nèi)計算技術(shù)為核心,絕無僅有存內(nèi)技術(shù)開源內(nèi)容,囊括云/邊/端側(cè)商業(yè)化應(yīng)用解析以及新技術(shù)趨勢洞察等, 邀請業(yè)內(nèi)大咖定期舉辦線下存內(nèi)workshop,實戰(zhàn)演練體驗前沿架構(gòu);從理論到實踐,做為最佳窗口,存內(nèi)計算讓你觸手可及。
傳送門:[https://bbs.csdn.net/forums/computinginmemory?category=10003]
社區(qū)最新活動存內(nèi)計算大使招募中,享受社區(qū)資源傾斜,打造屬于你的個人品牌,點擊下方一鍵加入。
[https://bbs.csdn.net/topics/617915760]
首個存內(nèi)計算開發(fā)者社區(qū),0門檻新人加入,發(fā)文享積分兌超值禮品;
成為存內(nèi)計算大使,享受資源支持與激勵,打造亮眼個人品牌,共同引流存內(nèi)計算潮流。
存算一體技術(shù)發(fā)展歷程
存算一體技術(shù),也稱為近存計算與存內(nèi)計算,其概念最早在1969年被提出。這種技術(shù)旨在克服傳統(tǒng)馮·諾依曼架構(gòu)的局限性,通過在存儲器中直接進(jìn)行計算,減少數(shù)據(jù)傳輸?shù)拈_銷。然而,早期由于缺乏大數(shù)據(jù)處理的應(yīng)用需求以及芯片制造成本高昂,存算一體技術(shù)主要停留在研究階段。
計算架構(gòu)的演變示意圖如下:
隨著技術(shù)的發(fā)展,尤其是摩爾定律的逐漸失效和大數(shù)據(jù)應(yīng)用的驅(qū)動,存算一體技術(shù)重新受到關(guān)注。2015年以來,這一領(lǐng)域的研究取得了顯著進(jìn)展,涌現(xiàn)出了一系列相關(guān)研究工作,包括基于SRAM、DRAM、Flash、ReRAM、PCM、FeFET、MRAM等各種存儲介質(zhì)的研究。
存內(nèi)計算芯片8 bit精度運算測試結(jié)果如下圖:
存算一體技術(shù)被認(rèn)為是先進(jìn)算力的代表性技術(shù)之一。在學(xué)術(shù)界和工業(yè)界,許多知名機(jī)構(gòu)都在積極開展存算一體芯片或系統(tǒng)原型的研究,如蘇黎世聯(lián)邦理工學(xué)院、加利福尼亞大學(xué)圣巴巴拉分校、英偉達(dá)、英特爾、微軟、三星等。這些研究工作不僅在學(xué)術(shù)期刊上發(fā)表了一系列研究成果,也在國際會議上得到了廣泛關(guān)注。
基于不同存儲介質(zhì)的計算架構(gòu)演變圖如下:
存算一體技術(shù)的發(fā)展歷程表明,盡管早期受到技術(shù)和成本等方面的限制,但隨著大數(shù)據(jù)和人工智能等應(yīng)用的興起,這一領(lǐng)域的研究已經(jīng)取得了顯著進(jìn)展,并被認(rèn)為是未來計算架構(gòu)的重要方向之一。
存內(nèi)計算芯片研究現(xiàn)狀
存內(nèi)計算芯片可以根據(jù)計算范式和存儲介質(zhì)的不同進(jìn)行分類。主要分為模擬式和數(shù)字式兩種,根據(jù)存儲介質(zhì)的不同又可分為基于傳統(tǒng)存儲器和基于新型非易失性存儲器兩種。
- 計算范式分類:
- 存儲介質(zhì)分類:
- 基于傳統(tǒng)存儲器的存內(nèi)計算芯片: 包括使用傳統(tǒng)存儲器技術(shù)的存內(nèi)計算芯片,如SRAM(靜態(tài)隨機(jī)存儲器)、DRAM(動態(tài)隨機(jī)存儲器)和Flash等。這些技術(shù)已經(jīng)被廣泛應(yīng)用于存內(nèi)計算領(lǐng)域。
- 基于新型非易失性存儲器的存內(nèi)計算芯片: 包括使用新型非易失性存儲器技術(shù)的存內(nèi)計算芯片,如ReRAM(電阻隨機(jī)存儲器)、PCM(相變存儲器)、FeFET(鐵電場效應(yīng)晶體管)和MRAM(磁阻存儲器)等。這些新型存儲器具有一些優(yōu)勢,如更低的功耗、更高的穩(wěn)定性等。
在當(dāng)前的研究工作中,許多存內(nèi)計算芯片綜合了模擬和數(shù)字兩種運算方式,并且在存儲介質(zhì)的選擇上也有很多不同的組合。其中,基于NOR Flash和基于SRAM的存內(nèi)計算芯片距離產(chǎn)業(yè)化較近,已經(jīng)在一些應(yīng)用中取得了一定的進(jìn)展。
SRAM存內(nèi)計算
基于SRAM的存內(nèi)計算芯片通常以典型的6T(6-Transistor)基本單元為基礎(chǔ)。由于SRAM是二值存儲器,它可以用于二值乘累加運算,這等效于同或累加運算。這使得它適用于二值神經(jīng)網(wǎng)絡(luò)運算。核心思想是將網(wǎng)絡(luò)權(quán)重存儲于SRAM單元中,激勵信號從字線給入,最終利用外圍電路實現(xiàn)同或累加運算。結(jié)果可以通過計數(shù)器或模擬電流/電壓輸出。
如果要實現(xiàn)多比特精度運算,通常需要多個單元進(jìn)行拼接,這不可避免地會帶來面積開銷。對6T基本單元的一個簡單修改是將字線進(jìn)行拆分。此外,為了解決讀寫干擾問題,可以采用8T基本單元,但這明顯增加了布局面積,如圖所示。
基于SRAM的存內(nèi)計算技術(shù)由于其工藝成熟度與微縮性良好,受到業(yè)界的高度關(guān)注。在近幾年的ISSCC(國際固態(tài)電路大會)上,連續(xù)報道了多篇相關(guān)論文。例如,2021年,存內(nèi)計算共有兩個分論壇,共收錄8篇論文,其中5篇是關(guān)于SRAM存內(nèi)計算芯片的。在2022年的ISSCC中,北京大學(xué)提出了一種基于動態(tài)邏輯且無模數(shù)轉(zhuǎn)換器的SRAM存內(nèi)計算芯片[42]。SRAM存內(nèi)計算技術(shù)的主要應(yīng)用難點在于在保證運算精度的前提下,實現(xiàn)高算力和小面積。
DRAM存內(nèi)計算
基于DRAM的存內(nèi)計算芯片的層次結(jié)構(gòu)通常分為陣列、子陣列和單元。一組陣列由若干子陣列和用于讀寫操作的相關(guān)外圍電路組成,而子陣列則包含若干行1T1C(1-Transistor-1-Capacitor)單元、感知放大器和本地解碼器。其基本原理是利用DRAM單元之間的電荷共享機(jī)制。圖4展示了一種典型的實現(xiàn)方案,當(dāng)多行單元同時被選通時,不同單元之間因為存儲數(shù)據(jù)的不同會產(chǎn)生電荷交換共享,從而實現(xiàn)邏輯運算。
然而,DRAM存內(nèi)計算方案面臨兩個主要難點。首先,由于DRAM本身為易失性存儲器,計算操作會破壞數(shù)據(jù),因此需要在每次運算后進(jìn)行刷新,這會帶來額外的功耗問題。其次,在實現(xiàn)大陣列運算時,難以保證運算精度,這可能在一定程度上影響其應(yīng)用的可靠性。
盡管存在這些難點,基于DRAM的存內(nèi)計算方案仍然具有潛在的優(yōu)勢,包括其相對較低的成本和高度集成的能力。不斷的研究和創(chuàng)新可能有助于解決這些難題,使其更加適用于特定的應(yīng)用場景。
ReRAM/PCM存內(nèi)計算
ReRAM(電阻隨機(jī)存儲器)/PCM(相變存儲器)存內(nèi)計算的基本原理是利用存儲單元的模擬多比特特性,通過基于電流/電壓的歐姆定律與基爾霍夫定律進(jìn)行矩陣乘加運算。主要有兩種實現(xiàn)方案,分別是1T1R(1-transistor-1-resistance)結(jié)構(gòu)和交叉陣列結(jié)構(gòu),如圖所示。
- 1T1R結(jié)構(gòu): 使用1T1R結(jié)構(gòu),即一個晶體管和一個電阻組成一個存儲單元。這種結(jié)構(gòu)通過控制電流或電壓,可以實現(xiàn)對存儲單元的狀態(tài)調(diào)控,進(jìn)而進(jìn)行計算操作。
- 交叉陣列結(jié)構(gòu): 利用ReRAM能夠?qū)崿F(xiàn)大規(guī)模交叉點陣列,將存儲單元排列成交叉的結(jié)構(gòu)。這樣的陣列結(jié)構(gòu)可以進(jìn)行并行計算,提高計算效率。
自2008年ReRAM首次實驗發(fā)現(xiàn)以來,基于ReRAM的存內(nèi)計算研究不斷涌現(xiàn)。特別是在2020年,清華大學(xué)研發(fā)了基于多個ReRAM陣列的存內(nèi)計算系統(tǒng),該系統(tǒng)在手寫數(shù)字集上的識別準(zhǔn)確率達(dá)到96.19%,與軟件的識別準(zhǔn)確率相當(dāng),證明了存內(nèi)計算架構(gòu)全硬件實現(xiàn)的可行性。測試芯片如圖所示。
盡管ReRAM存內(nèi)計算技術(shù)具有廣闊的應(yīng)用潛力,但目前仍面臨一些挑戰(zhàn)。其中主要難點包括工藝尚不夠成熟、多比特精度實現(xiàn)較為困難以及一致性和魯棒性較差。隨著技術(shù)的不斷發(fā)展,這些問題有望在未來得到解決,推動ReRAM存內(nèi)計算技術(shù)的進(jìn)一步應(yīng)用和成熟。
MRAM存內(nèi)計算
MRAM(磁性隨機(jī)存儲器)存內(nèi)計算主要有兩種技術(shù)方案:
- 基于讀/寫操作的數(shù)字式存內(nèi)計算: 早期的MRAM存內(nèi)計算多采用數(shù)字式方案。例如,在2015年,日本東北大學(xué)提出了一種基于讀操作實現(xiàn)多種布爾邏輯的方案,并通過實驗驗證獲得了48.3%的能效提升。此外,在2019年,北京航空航天大學(xué)提出了基于單次寫操作的數(shù)字式MRAM存內(nèi)計算方案,實現(xiàn)計算結(jié)果原位存儲的同時降低了延時和功耗。
- 基于基爾霍夫電流定律和歐姆定律的模擬式存內(nèi)計算: 近年來,隨著計算范式、器件和電路的創(chuàng)新,MRAM模擬存內(nèi)計算得到了迅速發(fā)展。在2021年,美國普林斯頓大學(xué)通過電路級優(yōu)化,實現(xiàn)了第一款基于STT-MRAM的模擬存內(nèi)計算硬核。而在2022年,韓國三星公司在Nature期刊上發(fā)表了基于電阻累加方案的MRAM模擬存內(nèi)計算芯片原型,并取得了最高405 TOPS/W的能效比。該芯片的陣列布局圖、顯微圖和結(jié)構(gòu)如圖所示。
模擬式存內(nèi)計算在MRAM中的難點主要體現(xiàn)在器件的阻值相對較小(約幾千歐姆)以及高低阻值比率相對較?。s250%),這使得實現(xiàn)多比特精度較為困難。然而,通過多層次的創(chuàng)新突破,MRAM模擬存內(nèi)計算技術(shù)在最近取得了顯著的進(jìn)展。
NOR Flash存內(nèi)計算
基于NOR Flash的存內(nèi)計算技術(shù)原理與ReRAM相似,如圖所示。目前,NOR Flash存內(nèi)計算芯片技術(shù)相對較成熟,并已于2021年實現(xiàn)量產(chǎn)。美國的Mythic和國內(nèi)的知存科技都推出了基于NOR Flash的存內(nèi)計算芯片產(chǎn)品。
- Mythic M1076芯片: Mythic推出了M1076芯片,如圖所示。這款芯片采用NOR Flash存內(nèi)計算技術(shù),具有嵌入式AI推理能力,適用于各種端側(cè)設(shè)備,如攝像頭、傳感器和邊緣計算設(shè)備等。
- 知存科技WTM2101芯片: 知存科技推出了WTM2101量產(chǎn)SoC芯片,如圖所示。該芯片基于NOR Flash存內(nèi)計算技術(shù),具有邊緣AI計算能力,適用于智能攝像頭、智能家居等場景,實現(xiàn)了高效的本地AI處理。
這些NOR Flash存內(nèi)計算芯片的推出表明該技術(shù)已經(jīng)進(jìn)入商業(yè)化階段,成為實際應(yīng)用的一部分。這種技術(shù)的優(yōu)勢在于其相對成熟的制造工藝和較低的成本,使其成為在端側(cè)設(shè)備中進(jìn)行AI計算的有力選擇。
基于 NOR Flash 的卷積神經(jīng)網(wǎng)絡(luò)量化
基于 NOR Flash 陣列實現(xiàn)模擬乘法的原理結(jié)合浮柵單元的存儲特點,以實現(xiàn) 4 位(即網(wǎng)絡(luò)正向傳播時只存在精度為 4 位的計算)的卷積神經(jīng)網(wǎng)絡(luò)模型,采用基于動態(tài)閾值調(diào)整的量化方法。這個方法主要涉及神經(jīng)網(wǎng)絡(luò)量化時的參數(shù)(權(quán)值 w 和偏置 b)以及激活函數(shù)的不同量化方案。
- 參數(shù)量化: 在訓(xùn)練過程中,采樣浮點參數(shù)的閾值多次,以改變縮放因子,使得量化的映射更加精確。通過動態(tài)調(diào)整閾值,可以更好地適應(yīng)不同參數(shù)的取值范圍,提高量化的準(zhǔn)確性。
- 激活函數(shù)的量化: 針對激活函數(shù),引入可學(xué)習(xí)的參數(shù),在 ReLU(Rectified Linear Unit)激活函數(shù)中,使激活的量化可以根據(jù)實際情況在反向傳播過程中不斷更新,以提高量化精度。這樣的調(diào)整可以根據(jù)網(wǎng)絡(luò)的訓(xùn)練過程中動態(tài)變化的激活值來調(diào)整量化的參數(shù),以適應(yīng)不同的輸入情況。
這種基于 NOR Flash 陣列和浮柵單元的量化方法可以在訓(xùn)練過程中動態(tài)地調(diào)整閾值和參數(shù),以適應(yīng)不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和輸入數(shù)據(jù)的變化,提高量化的精度,同時降低模型的計算和存儲開銷。這種動態(tài)的量化方法有望在實際的卷積神經(jīng)網(wǎng)絡(luò)模型中取得更好的性能。
卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一類專門用于處理具有類似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)的深度學(xué)習(xí)模型,特別適用于圖像和視頻的處理。以下是卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu):
- 輸入層(Input Layer): 輸入層負(fù)責(zé)接收原始數(shù)據(jù),通常是圖像的像素值。每個輸入節(jié)點對應(yīng)圖像中的一個像素或一組像素。
- 卷積層(Convolutional Layer): 卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心部分。它通過使用卷積操作從輸入數(shù)據(jù)中提取特征。卷積操作是通過濾波器(也稱為卷積核)在輸入數(shù)據(jù)上滑動并執(zhí)行元素乘法和求和來實現(xiàn)的。這有助于捕捉輸入中的局部特征,同時減少網(wǎng)絡(luò)參數(shù)的數(shù)量。
- 激活函數(shù)層(Activation Layer): 卷積操作的結(jié)果通常通過一個激活函數(shù)進(jìn)行非線性變換,以引入網(wǎng)絡(luò)的非線性特性。常見的激活函數(shù)包括ReLU(Rectified Linear Unit)和Sigmoid等。
- 池化層(Pooling Layer): 池化層用于減小特征圖的空間維度,減少計算復(fù)雜度并使網(wǎng)絡(luò)對平移更加不變。常見的池化操作包括最大池化和平均池化。
- 全連接層(Fully Connected Layer): 全連接層負(fù)責(zé)整合之前層的信息,并將其映射到輸出層。每個節(jié)點與前一層的所有節(jié)點相連,引入了全局信息。
- 輸出層(Output Layer): 輸出層負(fù)責(zé)生成網(wǎng)絡(luò)的最終輸出,通常對應(yīng)于問題的類別數(shù)。對于分類問題,輸出層通常使用softmax激活函數(shù),對每個類別產(chǎn)生一個概率分布。
上述結(jié)構(gòu)構(gòu)成了一個基本的卷積神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu)。在實際應(yīng)用中,人們通常會堆疊多個這樣的層次,形成深層的網(wǎng)絡(luò)結(jié)構(gòu),以提高模型的學(xué)習(xí)能力和表示能力。深層卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在圖像識別、目標(biāo)檢測、語音識別等領(lǐng)域取得了顯著的成果。
一維卷積:
二維卷積:
三維卷積:
卷積神經(jīng)網(wǎng)絡(luò)量化方法研究
基于動態(tài)閾值調(diào)整的量化方法,主要針對神經(jīng)網(wǎng)絡(luò)中的參數(shù)和激活值的量化。以下是該方法的主要步驟:
- 參數(shù)量化: 針對模型的權(quán)重(參數(shù)),不斷采樣浮點參數(shù),并在反向傳播過程中更新浮點參數(shù)的閾值范圍。通過這種方式,動態(tài)地調(diào)整映射系數(shù),使得參數(shù)的量化能夠更好地適應(yīng)模型的變化。
- 激活量化: 針對激活值,引入可學(xué)習(xí)的截斷參數(shù)。在激活函數(shù)中,通過學(xué)習(xí)可調(diào)整的截斷參數(shù),使激活函數(shù)能夠在訓(xùn)練過程中不斷學(xué)習(xí),并確定最佳的截斷位置。這有助于提高激活值的量化精度。
- BN層處理: 針對批量歸一化(Batch Normalization,BN)層的浮點計算過程,提供相應(yīng)的處理方案。BN層通常用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,而在量化神經(jīng)網(wǎng)絡(luò)中,需要特殊的處理方式來實現(xiàn)全整數(shù)計算。
該方法通過動態(tài)調(diào)整參數(shù)的映射系數(shù)和引入可學(xué)習(xí)的截斷參數(shù),實現(xiàn)了對神經(jīng)網(wǎng)絡(luò)的全整數(shù)計算的量化。這有助于減小神經(jīng)網(wǎng)絡(luò)在推理階段的計算復(fù)雜度,適應(yīng)特定硬件或嵌入式設(shè)備的需求。
這些措施的目標(biāo)是在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,通過動態(tài)調(diào)整閾值和引入可學(xué)習(xí)的參數(shù),優(yōu)化量化的精度,提高在反向傳播中的更新效果。文本還提到了對BN層和其他激活函數(shù)的相應(yīng)處理,以確保整個神經(jīng)網(wǎng)絡(luò)在量化過程中能夠保持良好的性能。
實驗及結(jié)果分析
在CIFAR-10數(shù)據(jù)集上評估動態(tài)閾值調(diào)整算法的性能。
- 數(shù)據(jù)集選擇理由: 選擇CIFAR-10數(shù)據(jù)集的原因有三點:首先,相對于MNIST數(shù)據(jù)集,CIFAR-10包含RGB三通道彩色圖像,更符合當(dāng)今卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用場景;其次,相對于ImageNet數(shù)據(jù)集,CIFAR-10訓(xùn)練可以使用十幾層的神經(jīng)網(wǎng)絡(luò),這提高了在邊緣設(shè)備上部署這些模型的可行性;最后,盡管CIFAR-10只有10個類別,但由于數(shù)據(jù)集本身的訓(xùn)練難度,通過更改Softmax輸出層來實現(xiàn)遷移學(xué)習(xí),從而完成更多物品的分類識別。
- CIFAR-10數(shù)據(jù)集描述: CIFAR-10數(shù)據(jù)集包括60000張大小為32x32的彩色圖像,分為10個類別,每個類別有6000張圖像。
- 訓(xùn)練集和測試集劃分: 數(shù)據(jù)集中的50000張圖像用于訓(xùn)練,10000張用于測試。
對于訓(xùn)練難度和遷移學(xué)習(xí)的考慮使得CIFAR-10數(shù)據(jù)集成為評估動態(tài)閾值調(diào)整算法性能的有力選擇。
Res18模型精度如下圖:
使用CIFAR-10數(shù)據(jù)集訓(xùn)練的全精度AlexNet、VGG16和ResNet-18模型在測試集上的分類準(zhǔn)確率。
- 訓(xùn)練結(jié)果: 本文使用CIFAR-10數(shù)據(jù)集訓(xùn)練了AlexNet、VGG16和ResNet-18模型,它們在測試集上的分類準(zhǔn)確率分別為90.07%,91.65%,93.23%。
- 與其他工作的對比: 文中對比了其他相關(guān)工作的結(jié)果。其中,引用的文獻(xiàn)1使用AlexNet網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上訓(xùn)練,最終分類準(zhǔn)確率為89%。文獻(xiàn)2使用VGG16網(wǎng)絡(luò)和ResNet-18網(wǎng)絡(luò)在CIFAR-10數(shù)據(jù)集上分別達(dá)到90.92%和92.32%的準(zhǔn)確率。文獻(xiàn)3使用ResNet-110在CIFAR-10數(shù)據(jù)集上訓(xùn)練,最終分類準(zhǔn)確率為93.57%。本文的結(jié)果與這些工作相似,但文獻(xiàn)3中的模型深度明顯大于本文的模型。
本文的模型在CIFAR-10數(shù)據(jù)集上達(dá)到了競爭性的分類準(zhǔn)確率。
數(shù)據(jù)結(jié)果對比:
量化結(jié)果對比:
心得
經(jīng)過對動態(tài)閾值量化算法的實驗驗證,包括實驗平臺及相關(guān)設(shè)置、在CIFAR-10數(shù)據(jù)集上對參數(shù)和激活層進(jìn)行的驗證以及對AlexNet、VGG16和ResNet-18這三種卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行4位量化的結(jié)果。
在CIFAR-10數(shù)據(jù)集上,對動態(tài)閾值量化算法進(jìn)行了驗證,分別針對模型參數(shù)和激活層。實驗結(jié)果表明,該算法在減小量化模型精度損失方面取得了成功,將損失控制在1.5%以內(nèi)。
對AlexNet、VGG16和ResNet-18這三種卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了4位量化的實驗。結(jié)果表明,動態(tài)閾值量化算法在這些網(wǎng)絡(luò)上能夠?qū)⒘炕P偷木葥p失有效地降低到1.5%以內(nèi)。
參考文獻(xiàn)
1.知存科技
2.中國移動研究院
3.電子與信息學(xué)報—存內(nèi)計算芯片研究進(jìn)展及應(yīng)用
4.中科院—基于NorFlash的表積神經(jīng)網(wǎng)絡(luò)量化
文獻(xiàn)內(nèi)容極多,本文基于眾多文獻(xiàn)經(jīng)過仔細(xì)仔細(xì)分析總結(jié)而來。支持存內(nèi)計算發(fā)展。
審核編輯 黃宇
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24829 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
367瀏覽量
11914 -
存算一體
+關(guān)注
關(guān)注
0文章
103瀏覽量
4328 -
存內(nèi)計算
+關(guān)注
關(guān)注
0文章
30瀏覽量
1402
發(fā)布評論請先 登錄
相關(guān)推薦
評論