NVIDIA 發(fā)布的TensorRT 8.0 ,通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練,并通過支持稀疏性,這是引進安培 GPU 的顯著更高的性能。
TensorRT 是一個用于高性能深度學習推理的 SDK ,包括推理優(yōu)化器和運行時,提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務、金融服務、能源等行業(yè),下載量近 250 萬次。
有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。
此版本的亮點包括:
BERT 在 1.2 毫秒內(nèi)進行推斷,并進行了新的 transformer 優(yōu)化
使用量化感知訓練,以 INT8 精度實現(xiàn)與 FP32 相當?shù)臏蚀_性
引入稀疏性支持對安培 GPU 的快速推理
關(guān)于作者
About Jay Rodge
Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負責深入學習和推理產(chǎn)品,推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位,主攻計算機視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團的人工智能研究實習生,為寶馬最大的制造廠使用計算機視覺解決問題。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103728 -
gpu
+關(guān)注
關(guān)注
28文章
4777瀏覽量
129360
發(fā)布評論請先 登錄
相關(guān)推薦
在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化
![<b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化](https://file1.elecfans.com/web3/M00/03/BF/wKgZPGdr0WaAWiI-AAATzNjpSz0481.png)
解鎖NVIDIA TensorRT-LLM的卓越性能
NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布
![<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布](https://file1.elecfans.com/web3/M00/00/42/wKgZO2dH2UeALMQdAABTS5uU1Rg392.png)
java小知識-納秒
TensorRT-LLM低精度推理優(yōu)化
![<b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化](https://file1.elecfans.com/web1/M00/F5/62/wKgZoWc8MUuACQJOAAARWw9PFe0355.jpg)
AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時1毫秒輸出給揚聲器?
魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率
請問ESP8266在射頻校準期間會發(fā)射嗎?
如何設置rts frame的duration?
NVIDIA加速微軟最新的Phi-3 Mini開源語言模型
利用NVIDIA Holoscan 1.0開發(fā)生產(chǎn)就緒型AI傳感器處理應用
利用NVIDIA組件提升GPU推理的吞吐
NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀
![<b class='flag-5'>NVIDIA</b>生成式AI研究實現(xiàn)在1<b class='flag-5'>秒內(nèi)</b>生成3D形狀](https://file1.elecfans.com/web2/M00/C5/E5/wKgZomYDhKCAWidnAAAMtdqDKw4774.jpg)
評論