作為新的計算架構(gòu),存內(nèi)計算(Computing In Memory,CIM)被認(rèn)為是具有潛力的革命性技術(shù)。重點是將存儲與計算融合,有效克服馮·諾依曼架構(gòu)瓶頸,并結(jié)合后摩爾時代先進(jìn)封裝、新型存儲器件等技術(shù),實現(xiàn)計算能效的數(shù)量級提升。
存儲介質(zhì)是存內(nèi)計算芯片重要的組成部分,基于不同存儲介質(zhì)的芯片具有不同特點,下面我們將講述當(dāng)前主流存儲介質(zhì)。
存儲介質(zhì)有不同的分類方式。從數(shù)據(jù)保存上分,存儲介質(zhì)主要分為兩大類:易失性存儲器(Volatile Memory,VM):電源開啟時數(shù)據(jù)存在,電源關(guān)閉則數(shù)據(jù)消失,如SRAM、DRAM等;非易失性存儲器(Non-Volatile Memory,NVM):存儲的數(shù)據(jù)不會因為電源關(guān)閉而消失,如RRAM、PCM、MRAM、NOR Flash等。從成熟度上分,可以得到如下圖表。
圖 1 存算一體主流技術(shù)路線最新總覽圖
(來源:“未來芯片:算力塑造未來”論壇-中國移動通信有限公司研究院-存算一體助力AI大模型的思考與展望)
下面我們將從易失性存儲器和非易失性存儲器兩個方面介紹存儲介質(zhì)。
易失性存儲器,當(dāng)前市面上常用的兩種易失性存儲器為SRAM與DRAM。
(1)SRAM[1]
SRAM全稱靜態(tài)隨機存儲器(Static Random Access Memory),需要一直通電才能使用,是一種易失性存儲器。Static(靜態(tài)),是指這種存儲器只要保持通電,里面儲存的數(shù)據(jù)就可以長時間保持。
SRAM常用于CPU中的緩存,基本存儲單元由晶體管搭建而成,常見有6晶體管(6T)、8晶體管(8T)結(jié)構(gòu),圖2為6T SRAM結(jié)構(gòu)。SRAM通過形成互鎖結(jié)構(gòu)的兩個反相器來存儲數(shù)據(jù),在設(shè)備供電時保持存儲數(shù)據(jù)不變,斷電后存儲數(shù)據(jù)丟失,呈現(xiàn)易失性。
圖 2 6T SRAM結(jié)構(gòu)[2]
SRAM讀寫速度快、無讀寫次數(shù)限制,且工藝成熟,器件一致性和穩(wěn)定性較好,適用于數(shù)字存算一體。基于SRAM的全數(shù)字存內(nèi)計算可以做到較高的計算精度,并且可以較快實現(xiàn)技術(shù)落地與量產(chǎn)。例如在2021年的ISSCC 16.4中,臺積電提出一種基于6T SRAM的全數(shù)字存內(nèi)計算宏,用于卷積神經(jīng)網(wǎng)絡(luò)中的乘累加運算[3]。但SRAM價格昂貴、多晶體管單元結(jié)構(gòu)下存儲密度較低、需要通電以保持?jǐn)?shù)據(jù),因此芯片面積、功耗較大,不適用于對成本和功耗敏感的場景。
SRAM工藝成熟,目前已經(jīng)有多家企業(yè)基于SRAM研發(fā)存算一體芯片,企業(yè)情況如下表所示,需要注意的是,以下信息均源于企業(yè)的公開資料,由于作者能力有限,未羅列全基于SRAM做存算一體芯片的企業(yè),列舉的可能并非該企業(yè)的最新產(chǎn)品,而企業(yè)往往也只會公開產(chǎn)品發(fā)布時間點對其有利的部分?jǐn)?shù)據(jù),數(shù)據(jù)帶有宣傳性質(zhì),請酌情采信。
表1 基于SRAM的存算一體企業(yè)表格[4]
(2)DRAM
DRAM全稱動態(tài)隨機存儲器(Dynamic Random Access Memory),Dynamic(動態(tài)),是指DRAM存儲的數(shù)據(jù)需要周期性更新,和SRAM相對。DRAM將每位數(shù)據(jù)存儲在一個獨立的電容中,電容會隨著時間自然放電,需要定期刷新電荷,因此DRAM呈現(xiàn)易失性。
如圖3所示,DRAM基本單元結(jié)構(gòu)由一個晶體管和一個電容組成。電容是存儲信息的關(guān)鍵,規(guī)定當(dāng)電容存有電荷,單元存儲信息“1”,反之,單元存儲信息“0”。 打開晶體管后,通過在晶體管另一側(cè)施加電壓來存數(shù)據(jù);通過電容是否放電來取數(shù)據(jù)[5]。
圖 3 DRAM基本單元結(jié)構(gòu)[6]
DRAM需要1個晶體管和1個電容來存儲信息,而SRAM往往需要6個晶體管來存儲。因此DRAM密度高,單位體積的容量較高因此成本較低。但DRAM需要周期性刷新電荷,所以訪問速度較慢,耗電量較大。DRAM低速、高容量,主要應(yīng)用于主存和內(nèi)存等場景。此外,許多新技術(shù)逐漸產(chǎn)生,例如3D DRAM技術(shù),是將存儲單元堆疊至邏輯單元上方,以增加單位晶圓面積上的產(chǎn)量。
非易失性存儲器
常見的非易失性存儲器有RRAM、PCM、MRAM、FeFET、NOR Flash等。
(1)RRAM
RRAM(Resistive Random Access Memory)又被稱為憶阻器,是一種極具潛力的新型非易失存儲器件,基本存儲單元為金屬-絕緣體-金屬或者金屬-絕緣體-半導(dǎo)體的三明治結(jié)構(gòu)。 如圖4所示,上下為電極層,中間為絕緣的電阻轉(zhuǎn)變層。通過在電極層施加電壓/電流,電阻轉(zhuǎn)變層的電阻值可以實現(xiàn)高阻態(tài)和低阻態(tài)的切換,每種組態(tài)對應(yīng)1或者0,這樣就可以存儲器信息。且電阻轉(zhuǎn)變層可以實現(xiàn)多級電阻狀態(tài),使其可存儲多比特信息,這種電阻狀態(tài)改變是非破壞性的的,即斷電后也不會改變,這也是RRAM具有非易失性的原因。
圖 4 RRAM基本結(jié)構(gòu)[7]
圖5 RRAM陣列[8]
如圖5,憶阻器電路可以做成陣列結(jié)構(gòu),與矩陣形狀類似,利用其矩陣運算能力,可以廣泛應(yīng)用于Al推理場景中。在Al推理過程中,通過輸入矢量與模型的參數(shù)(也即權(quán)重)矩陣完成乘加運算,便可以得到推理結(jié)果。
以矩陣乘加運算為例,如圖5所示,將模型的輸入數(shù)據(jù)設(shè)為矩陣[V],模型的參數(shù)設(shè)為矩陣[G],運算后的輸出數(shù)據(jù)設(shè)為矩陣[I]。在運算前,模型參數(shù)被轉(zhuǎn)化為憶阻器阻值按行列位置存入憶阻器矩陣中(即[G]),在輸入端給定不同電壓值來表示輸入矢量(即[V]),根據(jù)歐姆定律(電流=電壓/電阻),便可在輸出端得到對應(yīng)的電流矢量,再根據(jù)基爾霍夫定律將電流相加得到輸出結(jié)果的模擬值[I],經(jīng)過ADC轉(zhuǎn)換,便得到輸出結(jié)果的數(shù)字值。多個存算陣列并行,便可完成多個矩陣乘加計算。
2023年10月,清華錢鶴、吳華強帶領(lǐng)團(tuán)隊創(chuàng)新設(shè)計出適用于憶阻器存算一體的高效片上學(xué)習(xí)的新型通用算法和架構(gòu)(STELLAR),研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器存算一體芯片,該成果已發(fā)表在《Science》上。
(2)PCM
PCM(Phase-change RAM)即相變存儲器,是一種由硫族化合物材料構(gòu)成的非易失存儲器件,因為相變材料的兩種相在切換之后,即使在斷電的情況下也可以相對穩(wěn)定地保持,這是因為相變涉及材料的結(jié)構(gòu)重排,而這種結(jié)構(gòu)變化是物理上的,并不依賴于持續(xù)的電源供應(yīng)。如圖6所示,PCM器件的典型結(jié)構(gòu)為上電極、硫族化合物、電阻加熱器、下電極。通過在兩電極間施加不同形式的脈沖,對硫族化合物加熱使其在晶態(tài)和非晶態(tài)之間轉(zhuǎn)變,來表征高低阻特性,分別對應(yīng)1或0,從而實現(xiàn)數(shù)據(jù)的存儲和控制。
圖 6 PCM基本結(jié)構(gòu)[9]
PCM有非易失、存儲密度高、多比特存儲、支持3D堆疊等優(yōu)點, 但PCM存在寫入功耗較大、擦寫次數(shù)較少等問題尚需攻關(guān),因此當(dāng)前PCM主要還是作為大容量存儲器發(fā)展。基于PCM的存內(nèi)計算研究相對較少,需要待產(chǎn)業(yè)進(jìn)一步發(fā)展。
(3)MRAM
MRAM(Magnetoresistive Random Access Memory)是一種基于自旋電子學(xué)的新型非易失存儲器件,以磁隧道結(jié)(MTJ)為核心結(jié)構(gòu),利用隧道磁阻效應(yīng)實現(xiàn)電阻狀態(tài)改變,每種電阻狀態(tài)對應(yīng)1或者0,來達(dá)到存儲信息的目的,這種狀態(tài)改變不隨斷電而改變,因此也是非易失性存儲器。如圖7可見,MTJ是自由層-隔離層-固定層三明治結(jié)構(gòu)。固定層的磁場方向保持不變, 施加電壓可改變自由層的磁場方向,當(dāng)自由層和固定層磁場方向一致時, 器件呈現(xiàn)低阻態(tài),代表邏輯“0”;當(dāng)自由層和固定層磁場方向相反則為高阻態(tài),代表邏輯“1”。
圖 7 MRAM基本結(jié)構(gòu)[10]
基于MRAM的存內(nèi)計算芯片具有非易失、訪問速度快、讀/寫次數(shù)高等優(yōu)點,且具備較高的可靠性和穩(wěn)定性,但MRAM器件成熟度較低,功耗、速度和耐久性等指標(biāo)離理論預(yù)期尚有一定差距。當(dāng)前業(yè)界基于MRAM的存內(nèi)計算研究較少,需要推動器件成熟,同步挖掘其在存算一體領(lǐng)域的潛在場景。對于MRAM的相關(guān)研究,北航集成電路學(xué)院在MRAM領(lǐng)域的研究較多并已經(jīng)做出了相當(dāng)多的成果。
(4)FeFET[11]
FeFET(Ferroelectric Field Effect Transistor)具有極低的寫功耗、快速的讀取操作以及與CMOS兼容的高微縮能力等特點,這使基于FeFET的存儲與CiM電路在密度和能效上的優(yōu)勢尤為突出。但FeFET仍存在工藝成熟度、可靠性和壽命上的不足。圖8(b)展示了被廣泛研究的金屬-鐵電-絕緣層-半導(dǎo)體(Metal-Ferroelectric-Insulator-Semiconductor, MFIS)FeFET結(jié)構(gòu),該結(jié)構(gòu)在晶體管的柵極堆疊中嵌入鐵電材料作為鐵電層,如圖8(a)所示,在施加電場時鐵電層的極化狀態(tài)同電場強度呈滯回特性,其極化狀態(tài)在移除電場后仍能夠保持不變。
FeFET的工作原理在于鐵電層可以通過極化電荷對溝道施加場效應(yīng),從而控制晶體管的閾值電壓。如圖8(c)所示,F(xiàn)eFET的寫入過程具有滯回特性,可以通過調(diào)整寫入脈沖的幅度、寬度和次數(shù)來實現(xiàn)多值存儲。由于寫入操作中漏極與源極的電壓可以相同,F(xiàn)eFET實際上具有容性的寫入負(fù)載,寫操作功耗極低。
圖 8 FeFET基本結(jié)構(gòu)及性質(zhì)
(5)NOR Flash[12][13]
Flash 存儲器根據(jù)其內(nèi)部架構(gòu)和實現(xiàn)技術(shù)可以分為AND、NAND、NOR幾種,目前占據(jù)主流市場的有NOR Flash和NAND Flash兩大類。它們都將存儲單元組織為塊陣列。塊是擦除操作的最小單位,頁是讀、寫操作的基本單位。NAND Flash的頁大小通常為512B、2KB、4KB,而NOR Flash能夠以字節(jié)為單位進(jìn)行數(shù)據(jù)訪問。
NOR Flash以并行的方式連接存儲單元,具有分離的控制線、地址線和數(shù)據(jù)線,具有較快的讀速度,能夠提供片上執(zhí)行的功能。但寫操作和擦除操作的時間較長、且容量低、價格高。因此NOR Flash多被用于手機、BIOS芯片以及嵌入式系統(tǒng)中進(jìn)行代碼存儲。
而在存內(nèi)計算應(yīng)用中,每個Flash存儲器件的要存儲遠(yuǎn)超存儲應(yīng)用下的bit位數(shù),bit之間裕度更小、閾值電壓飄逸、行串?dāng)_問題更加嚴(yán)重。知存WTM2101使用特殊的電路設(shè)計抑制閾值電壓漂移對計算精度的影響。為了同時實現(xiàn)低功耗計算與低功耗控制,WTM2101結(jié)合了RISC-V指令集與NOR Flash存內(nèi)計算陣列,其陣列結(jié)構(gòu)與芯片架構(gòu)如圖9所示,包括1.8 MB NOR Flash存內(nèi)計算陣列,一個RISC-V核,一個數(shù)字計算加速器組,320 kB RAM以及多種外設(shè)接口。
圖 9 WTM2101芯片陣列及架構(gòu)
(6)混合型存儲器
由于目前還沒有一種完美的存儲器能夠同時實現(xiàn)低成本、高訪問速度、低能耗和高可靠性,為了在應(yīng)用中實現(xiàn)一種具備這些優(yōu)點的存儲方式,其中一種思路就是將不同存儲器混合使用[14]。文獻(xiàn)[15]提出了一種將RRAM和SRAM存儲器混合使用的方法,使用RRAM存儲權(quán)重數(shù)據(jù),因為它是非一時性存儲器,具備零泄漏的特點,可以減少維持權(quán)重數(shù)據(jù)的功率開銷;使用SRAM用于存儲激活(storing activation),因為它的讀寫速度快,可以頻繁更換數(shù)值。
總結(jié)
存儲器繁多、各具特點。具體到存內(nèi)計算而言,由于不同類型的存儲器幾乎都需要“定制”不同的電路、控制方式等與其匹配,才能使其作為存內(nèi)計算來使用。從具體使用的角度來看,應(yīng)考慮具體應(yīng)用場景的需求來選擇存內(nèi)計算的計算范式和使用的器件。從市場的角度來看,當(dāng)前具備成熟生產(chǎn)條件的RRAM、Flash存儲器或許是當(dāng)前推動存內(nèi)計算落地應(yīng)用的重要方向。
表2 不同存儲介質(zhì)對比[16]
參考文獻(xiàn):
[1][2][7][9] 存算一體白皮書(2022年),中國移動通信有限公司研究院.
[3] Y. -D. Chih et al., "16.4 An 89TOPS/W and 16.3TOPS/mm2 All-Digital SRAM-Based Full-Precision Compute-In Memory Macro in 22nm for Machine-Learning Edge Applications," 2021 ISSCC, San Francisco, CA, USA, 2021, pp. 252-254.
[4] 存算一體芯片賽道企業(yè)收錄(收錄于存算一體芯片賽道投資融資分析,持續(xù)更新,上次更新于20230226) - 知乎.
[5][6] 深入內(nèi)存/主存:解剖DRAM存儲器 - 知乎.
[8] 針對憶阻器的工作原理和發(fā)展的研究 - 知乎.
[10] 存算一體:MRAM席卷而來 - 半導(dǎo)體產(chǎn)業(yè)縱橫.
[11][16] 劉勇,李泰昕,祝希等.基于鐵電晶體管的存儲與存算一體電路[J].電子與信息學(xué)報,2023,45(09):3083-3097.
[12] 鄭文靜,李明強,舒繼武.Flash存儲技術(shù)[J].計算機研究與發(fā)展,2010,47(04):716-726.
[13] 郭昕婕,王光燿,王紹迪.存內(nèi)計算芯片研究進(jìn)展及應(yīng)用[J].電子與信息學(xué)報,2023,45(05):1888-1898.
[14] K. Johguchhi, "A Smart Hybrid Solid-State-Drive Storage System based on Nonvolatile Storage-Class-Memories : Device, Circuit Design and Architecture," 2020 International Symposium on Devices, Circuits and Systems (ISDCS), Howrah, India, 2020, pp. 1-2, doi: 10.1109/ISDCS49393.2020.9263016.
[15] M. Rios, F. Ponzina, G. Ansaloni, A. Levisse and D. Atienza, "Running Efficiently CNNs on the Edge Thanks to Hybrid SRAM-RRAM In-Memory Computing," 2021 Design, Automation & Test in Europe Conference & Exhibition (DATE), Grenoble, France, 2021, pp. 1881-1886, doi: 10.23919/DATE51398.2021.9474233.
審核編輯 黃宇
-
芯片
+關(guān)注
關(guān)注
456文章
51164瀏覽量
427200 -
DRAM
+關(guān)注
關(guān)注
40文章
2325瀏覽量
183862 -
存儲器
+關(guān)注
關(guān)注
38文章
7528瀏覽量
164337 -
sram
+關(guān)注
關(guān)注
6文章
768瀏覽量
114882 -
存內(nèi)計算
+關(guān)注
關(guān)注
0文章
30瀏覽量
1402
發(fā)布評論請先 登錄
相關(guān)推薦
評論