雖然 AI 和 ML 應(yīng)用程序的加速仍然是一個相對較新的領(lǐng)域,但各種處理器如雨后春筍般涌現(xiàn),幾乎可以加速任何神經(jīng)網(wǎng)絡(luò)工作負(fù)載。從處理器巨頭到業(yè)內(nèi)一些最新的初創(chuàng)公司,它們都提供了不同的東西——無論是針對不同的垂直市場、應(yīng)用領(lǐng)域、功率預(yù)算還是價格點(diǎn)。這是今天市場上的快照。
應(yīng)用處理器 Intel Movidius Myriad X由愛爾蘭初創(chuàng)公司 Movidius 開發(fā),并于 2016 年被英特爾收購,Myriad X是該公司的第三代視覺處理單元,也是第一款配備專用神經(jīng)網(wǎng)絡(luò)計(jì)算引擎的產(chǎn)品,每臺可提供 1 tera 運(yùn)算第二 (TOPS) 專用深度神經(jīng)網(wǎng)絡(luò) (DNN) 計(jì)算。神經(jīng)計(jì)算引擎直接與高吞吐量智能內(nèi)存結(jié)構(gòu)接口,以避免在傳輸數(shù)據(jù)時出現(xiàn)任何內(nèi)存瓶頸。它支持 FP16 和 INT8 計(jì)算。Myriad X 還具有一組 16 個專有 SHAVE 內(nèi)核以及升級和擴(kuò)展的視覺加速器。
Myriad X 可在英特爾的神經(jīng)計(jì)算棒 2 中使用,它實(shí)際上是一個 USB 拇指驅(qū)動器形式的評估平臺。它可以插入任何工作站,讓人工智能和計(jì)算機(jī)視覺應(yīng)用程序在專用的 Movidius 硬件上快速啟動和運(yùn)行。
NXP Semiconductors i.MX 8M Plus i.MX 8M Plus是一款異構(gòu)應(yīng)用處理器,采用芯原 (Vivante VIP8000) 的專用神經(jīng)網(wǎng)絡(luò)加速器 IP 。它為消費(fèi)和工業(yè)物聯(lián)網(wǎng) (IIoT) 中的端點(diǎn)設(shè)備的推理提供 2.3 TOPS 的加速,足以進(jìn)行多對象識別、40,000 個單詞的語音識別,甚至是醫(yī)學(xué)成像(MobileNet v1,每秒 500 張圖像)。
除神經(jīng)網(wǎng)絡(luò)處理器外,i.MX 8M Plus 還具有運(yùn)行頻率為 2 GHz 的四核 Arm Cortex-A53 子系統(tǒng),以及 Cortex-M7 實(shí)時子系統(tǒng)。
對于視覺應(yīng)用,有兩個圖像信號處理器支持兩個用于立體視覺的高清攝像頭或一個 12 兆像素 (MP) 攝像頭。對于語音,該設(shè)備包括一個 800-MHz HiFi4 音頻數(shù)字信號處理器 (DSP),用于對語音數(shù)據(jù)進(jìn)行預(yù)處理和后處理。
NXP 的 i.MX 8M Plus 是該公司首款配備專用神經(jīng)網(wǎng)絡(luò)加速器的應(yīng)用處理器。它專為物聯(lián)網(wǎng)應(yīng)用而設(shè)計(jì)。
XMOS xcore.ai xcore.ai旨在實(shí)現(xiàn)物聯(lián)網(wǎng) (AIoT) 應(yīng)用程序中的語音控制。該設(shè)備是一款交叉處理器(具有應(yīng)用處理器的性能和微控制器的低功耗實(shí)時操作),專為語音信號的機(jī)器學(xué)習(xí)推理而設(shè)計(jì)。
它基于 XMOS 專有的 Xcore 架構(gòu),它本身建立在稱為邏輯內(nèi)核的構(gòu)建塊上,可用于 I/O、DSP、控制功能或 AI 加速。每個 xcore.ai 芯片上有 16 個這樣的內(nèi)核,設(shè)計(jì)人員可以選擇為每個功能分配多少個。將不同的功能映射到固件中的邏輯內(nèi)核允許創(chuàng)建完全用軟件編寫的“虛擬 SoC”。XMOS 為 Xcore 增加了用于機(jī)器學(xué)習(xí)工作負(fù)載的矢量管道功能。
xcore.ai 支持 32 位、16 位、8 位和 1 位(二值化)網(wǎng)絡(luò),提供 3,200 MIPS、51.2 GMACC 和 1,600 MFLOPS。它具有 1 MB 的嵌入式 SRAM 以及用于擴(kuò)展的低功耗 DDR 接口。
XMOS 的 xcore.ai 基于專有架構(gòu),專為語音處理應(yīng)用程序中的 AI 工作負(fù)載而設(shè)計(jì)。
汽車 SoC Texas Instruments Inc. TDA4VM作為用于汽車高級駕駛輔助系統(tǒng) (ADAS)的Jacinto 7 系列的一部分,TDA4VM 是 TI 首款具有專用片上深度學(xué)習(xí)加速器的片上系統(tǒng) (SoC)。該模塊基于 C7x DSP 加上內(nèi)部開發(fā)的矩陣乘法加速器 (MMA),可實(shí)現(xiàn) 8 TOPS。
SoC 可以處理來自前置攝像頭的高達(dá) 8 MP 或四到六個 3 MP 攝像頭加上雷達(dá)、激光雷達(dá)和超聲波傳感器的組合的視頻流。例如,MMA 可用于在自動代客泊車系統(tǒng)中對這些輸入執(zhí)行傳感器融合。TDA4VM 專為 5 到 20 W 之間的 ADAS 系統(tǒng)而設(shè)計(jì)。
該設(shè)備仍處于預(yù)生產(chǎn)階段,但開發(fā)套件現(xiàn)已上市。
TI TDA4VM 適用于允許車輛感知其環(huán)境的復(fù)雜汽車 ADAS 系統(tǒng)。
GPU Nvidia Corp. Jetson Nano Nvidia 著名的Jetson Nano是一個小型但功能強(qiáng)大的圖形處理單元 (GPU) 模塊,用于端點(diǎn)設(shè)備中的 AI 應(yīng)用程序。Nano 模塊上的 GPU 建立在與 Jetson 系列的較大成員(AGX Xavier 和 TX2)相同的 Maxwell 架構(gòu)上,具有 128 個內(nèi)核,并且能夠達(dá)到 0.5 TFLOPS,足以在來自高端的多個數(shù)據(jù)流上運(yùn)行多個神經(jīng)網(wǎng)絡(luò)。據(jù)該公司稱,分辨率圖像傳感器。它在使用時僅消耗 5 W。該模塊還具有四核 Arm Cortex-A57 CPU。
與 Nvidia 范圍內(nèi)的其他部件一樣,Jetson Nano 使用 CUDA X,這是 Nvidia 的神經(jīng)網(wǎng)絡(luò)加速庫集合。價格低廉的 Jetson Nano 開發(fā)套件隨處可見。
Nvidia 的 Jetson Nano 模塊包含一個強(qiáng)大的 GPU,具有 128 個核心,用于邊緣的 AI。
消費(fèi)類協(xié)處理器 Kneron Inc. KL520美國-臺灣初創(chuàng)公司 Kneron 的第一款產(chǎn)品是KL520神經(jīng)網(wǎng)絡(luò)處理器,專為智能家居、安全系統(tǒng)和移動設(shè)備等應(yīng)用中的圖像處理和面部識別而設(shè)計(jì)。它針對運(yùn)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行了優(yōu)化,這是當(dāng)今圖像處理中常用的類型。
KL520 可以運(yùn)行 0.3 TOPS 并消耗 0.5 W(相當(dāng)于 0.6 TOPS/W),該公司表示,鑒于該芯片的 MAC 效率很高(超過 90%),這足以進(jìn)行準(zhǔn)確的面部識別。芯片架構(gòu)是可重構(gòu)的,可以針對不同的 CNN 模型進(jìn)行定制。該公司的互補(bǔ)編譯器還使用壓縮技術(shù)來幫助在芯片資源內(nèi)運(yùn)行更大的模型,從而幫助節(jié)省功耗和成本。
KL520 現(xiàn)已上市,也可以在制造商研揚(yáng)科技 (M2AI-2280-520) 的加速卡上找到。
Kneron 的 KL520 使用可重新配置的架構(gòu)和巧妙的壓縮來在移動和消費(fèi)設(shè)備中運(yùn)行圖像處理。
Gyrfalcon Lightspeeur 5801專為消費(fèi)電子市場設(shè)計(jì),Gyrfalcon 的Lightspeeur 5801在 224 mW 功耗(相當(dāng)于 12.6 TOPS/W)下提供 2.8 TOPS,延遲為 4 ms。與其他架構(gòu)相比,該公司使用了一種特別節(jié)能的內(nèi)存處理器技術(shù)。通過在 50 到 200 MHz 之間改變時鐘速度,功耗實(shí)際上可以與時鐘速度進(jìn)行權(quán)衡。Lightspeeur 5801 包含 10 MB 內(nèi)存,因此整個模型都可以安裝在芯片上。
這部分是該公司的第四款生產(chǎn)芯片,已經(jīng)在 LG 的 Q70 中端智能手機(jī)中找到,用于處理相機(jī)效果的推斷。USB 拇指驅(qū)動器開發(fā)套件 5801 Plai 插頭現(xiàn)已上市。
超低功耗 Eta Compute ECM3532 Eta Compute 的首款量產(chǎn)產(chǎn)品ECM3532專為物聯(lián)網(wǎng)電池供電或能量收集設(shè)計(jì)中的 AI 加速而設(shè)計(jì)。圖像處理和傳感器融合中的始終在線應(yīng)用可以通過低至 100 μW 的功率預(yù)算來實(shí)現(xiàn)。
該芯片有兩個內(nèi)核——一個 Arm Cortex-M3 微控制器內(nèi)核和一個 NXP CoolFlux DSP。該公司使用專有的電壓和頻率縮放技術(shù),可以調(diào)整每個時鐘周期,以從兩個內(nèi)核中榨取最后一滴電源。機(jī)器學(xué)習(xí)工作負(fù)載可以由任一內(nèi)核處理(例如,某些語音工作負(fù)載更適合 DSP)。
ECM3532 現(xiàn)已提供樣品,預(yù)計(jì)將于 2020 年第二季度開始量產(chǎn)。
Syntiant Corp. NDP100美國初創(chuàng)公司 Syntiant 的NDP100處理器設(shè)計(jì)用于在電力緊張的應(yīng)用中對語音命令進(jìn)行機(jī)器學(xué)習(xí)推理。其基于內(nèi)存處理器的芯片消耗的有功功率低于 140 μW,并且可以運(yùn)行用于關(guān)鍵字發(fā)現(xiàn)、喚醒詞檢測、說話者識別或事件分類的模型。該公司表示,該產(chǎn)品將用于實(shí)現(xiàn)耳塞、助聽器、智能手表和遙控器等消費(fèi)設(shè)備的免提操作。開發(fā)套件現(xiàn)已上市。
Syntiant 的 NDP100 器件專為超低功耗應(yīng)用中的語音處理而設(shè)計(jì)。
GreenWaves Technologies GAP9 GAP9 是法國初創(chuàng)公司 GreenWaves 的首款超低功耗應(yīng)用處理器,擁有一個由九個 RISC-V 內(nèi)核組成的強(qiáng)大計(jì)算集群,其指令集經(jīng)過大量定制以優(yōu)化功耗。它具有雙向多通道音頻接口和 1.6 MB 內(nèi)部 RAM。
GAP9 可以處理電池供電物聯(lián)網(wǎng)設(shè)備中圖像、聲音和振動傳感的神經(jīng)網(wǎng)絡(luò)工作負(fù)載。GreenWaves 的數(shù)據(jù)顯示 GAP9 在 160 × 160 圖像上運(yùn)行 MobileNet V1,在 12 毫秒內(nèi)通道縮放為 0.25,功耗為 806 μW/幀/秒。
評論