隨著AI功能逐漸向邊緣端發(fā)展,它們將推動(dòng)更多的AI應(yīng)用,而且這些應(yīng)用將越來越需要更強(qiáng)大的分析能力和智能,以便讓系統(tǒng)在本地即可做出操作決策,無論是部分還是完全自主的,就像在自動(dòng)駕駛汽車中一樣。
機(jī)器學(xué)習(xí)有兩個(gè)基本階段:訓(xùn)練和推理。人工神經(jīng)網(wǎng)絡(luò),旨在模仿大腦的工作方式,首先要面對(duì)大量的已知數(shù)據(jù)(例如狗和貓的圖片),這樣才能學(xué)會(huì)識(shí)別每個(gè)物體的樣子以及它們的不同之處。然后,經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)或模型就可以利用所學(xué)到的知識(shí),對(duì)呈現(xiàn)在面前的新數(shù)據(jù)進(jìn)行推理以推斷出新的事物,比如,確定一個(gè)圖像是狗還是貓。
目前大多數(shù)訓(xùn)練都是在數(shù)據(jù)中心進(jìn)行的,但也有少數(shù)是在邊緣端進(jìn)行。像谷歌、Facebook、亞馬遜、蘋果和微軟這樣的大公司都擁有海量的用戶數(shù)據(jù),因此可以為他們的服務(wù)器農(nóng)場(chǎng)提供足夠多的數(shù)據(jù),進(jìn)行工業(yè)規(guī)模的AI訓(xùn)練,以便改進(jìn)其算法。訓(xùn)練階段需要非??斓?a target="_blank">處理器,例如GPU或Google TPU(張量處理器)。
邊緣設(shè)備收集到數(shù)據(jù)(例如建筑物圖片或面部照片)后,將其傳送到推理引擎進(jìn)行分類時(shí),就會(huì)發(fā)生推理?;谠贫说腁I因?yàn)槠涔逃械难舆t缺點(diǎn),對(duì)許多應(yīng)用來說是不可接受的。例如,自動(dòng)駕駛汽車需要對(duì)其看到的對(duì)象做出實(shí)時(shí)決策,對(duì)基于云端的AI架構(gòu)來說,這是不可能實(shí)現(xiàn)的。
隨著AI功能逐漸向邊緣端發(fā)展,它們將推動(dòng)更多的AI應(yīng)用,而且這些應(yīng)用將越來越需要更強(qiáng)大的分析能力和智能,以便讓系統(tǒng)在本地即可做出操作決策,無論是部分還是完全自主的,就像在自動(dòng)駕駛汽車中一樣。
傳統(tǒng)的CPU不是很擅長(zhǎng)這類任務(wù),而且高端GPU耗能很大且價(jià)格昂貴。邊緣端推理就要求更便宜、功率更低的芯片,可快速通過神經(jīng)網(wǎng)絡(luò)來識(shí)別一個(gè)動(dòng)物,識(shí)別一張臉,鎖定一個(gè)腫瘤,或?qū)⒌抡Z翻譯成英語。
如今,有超過30家公司正在研發(fā)專用的AI硬件,以用于智能手機(jī)、平板電腦和其他邊緣設(shè)備中,來提高完成這些專業(yè)計(jì)算任務(wù)的效率。
據(jù)市場(chǎng)分析預(yù)測(cè),從2017到2021年,全球AI芯片市場(chǎng)將以高達(dá)54%的年復(fù)合增長(zhǎng)率而增長(zhǎng)。這一增長(zhǎng)的關(guān)鍵驅(qū)動(dòng)因素就在于能夠滿足機(jī)器學(xué)習(xí)要求的強(qiáng)大硬件性能。
消除存儲(chǔ)器瓶頸
所有AI處理器都依賴于數(shù)據(jù)集,即代表“學(xué)過的”對(duì)象類別(比如圖像和聲音等)的模型,來識(shí)別對(duì)象。每個(gè)對(duì)象的識(shí)別和分類都需要多次訪問內(nèi)存。當(dāng)今工程師面臨的最大挑戰(zhàn)是如何克服現(xiàn)有架構(gòu)中的內(nèi)存訪問速度和功耗瓶頸,以獲得更快的數(shù)據(jù)訪問,同時(shí)降低數(shù)據(jù)存取的能源成本。
通過盡可能靠近AI處理器內(nèi)核來存放訓(xùn)練數(shù)據(jù),可以獲得最快的速度和最大能效。但是,目前的設(shè)計(jì)所采用的存儲(chǔ)架構(gòu)都是幾年前還沒有其他實(shí)用解決方案時(shí)創(chuàng)建的,仍然是快速但小容量的嵌入式SRAM與大容量但較慢的外部DRAM的傳統(tǒng)組合。當(dāng)訓(xùn)練模型以這種方式存儲(chǔ)時(shí),嵌入式SRAM、外部DRAM和神經(jīng)網(wǎng)絡(luò)之間頻繁和大規(guī)模的數(shù)據(jù)交換會(huì)增加能耗及傳輸延遲。此外,SRAM和DRAM都是易失性存儲(chǔ)器,限制了在待機(jī)狀態(tài)實(shí)現(xiàn)節(jié)能的能力。
圖1:存儲(chǔ)器位于AI架構(gòu)的中心。
利用高密度、高速和低功耗的非易失性存儲(chǔ)器將整個(gè)訓(xùn)練模型直接存儲(chǔ)在AI處理器裸片上,這樣就可以實(shí)現(xiàn)更高的能效和速度。通過啟用以存儲(chǔ)器為中心的新架構(gòu),整個(gè)訓(xùn)練模型或知識(shí)庫(kù)就可以放在芯片上,直接連接到神經(jīng)網(wǎng)絡(luò),這樣就有潛力實(shí)現(xiàn)大規(guī)模節(jié)能和性能大幅提升,從而大大延長(zhǎng)電池壽命并提供更好的用戶體驗(yàn)。今天,已經(jīng)有幾種新一代存儲(chǔ)器技術(shù)正在競(jìng)相實(shí)現(xiàn)這一目標(biāo)。
ReRAM的潛力
針對(duì)AI應(yīng)用的理想非易失性嵌入式存儲(chǔ)器應(yīng)該具備如下特點(diǎn):容易制造,易于集成到熟知的CMOS工藝的后端,可輕松擴(kuò)展到高級(jí)節(jié)點(diǎn),可以大批量供應(yīng),并且能夠滿足這些應(yīng)用對(duì)能耗和速度的要求。
電阻式RAM(ReRAM)比磁性RAM(MRAM)或相變存儲(chǔ)器(PCM)方案具有更強(qiáng)的可擴(kuò)展性能,這在考慮14、12甚至7nm晶圓工藝時(shí)是一個(gè)重要的因素。其他技術(shù)都要求比ReRAM更復(fù)雜和昂貴的制造工藝,而且還更耗能。
圖2:ReRAM可以填補(bǔ)存儲(chǔ)器技術(shù)的空白。
例如,Crossbar公司的ReRAM納米絲技術(shù)可以在不影響性能的情況下縮小到10nm以下。ReRAM基于簡(jiǎn)單的器件結(jié)構(gòu),采用適合CMOS工藝的材料和標(biāo)準(zhǔn)制造流程,可在現(xiàn)有CMOS晶圓廠生產(chǎn)。由于它是一種低溫、后端工藝集成,因此可以在CMOS邏輯晶圓上集成多層ReRAM陣列,以構(gòu)建3D ReRAM存儲(chǔ)空間。
AI需要最佳的每瓦性能,尤其對(duì)于小功率的邊緣設(shè)備。ReRAM的能效可達(dá)到DRAM的五倍——每納焦高達(dá)1,000位讀取——同時(shí)表現(xiàn)出比DRAM更好的整體讀取性能,高達(dá)12.8GB/s,而隨機(jī)延遲小于20ns。
以內(nèi)存為中心的架構(gòu)
科學(xué)家們一直在探索各種新穎的大腦啟發(fā)思維范式,試圖通過模仿中樞神經(jīng)系統(tǒng)的神經(jīng)元和突觸交互的方式來實(shí)現(xiàn)更高的能效。基于ReRAM技術(shù)的人工神經(jīng)突觸是一種非常有前途的方法,可用于在神經(jīng)形態(tài)結(jié)構(gòu)中實(shí)現(xiàn)這些高密度和可縮放的突觸陣列。通過在邊緣端啟用AI,ReRAM有可能在當(dāng)前和全新的AI探索中發(fā)揮重要作用。
-
存儲(chǔ)器
+關(guān)注
關(guān)注
38文章
7528瀏覽量
164342 -
人工智能
+關(guān)注
關(guān)注
1796文章
47666瀏覽量
240281 -
reram
+關(guān)注
關(guān)注
1文章
51瀏覽量
25484
原文標(biāo)題:ReRAM可增強(qiáng)邊緣AI
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論