NVIDIA打破AI推理性能記錄

　NVIDIA憑借A100進一步擴大了在MLPerf基準測試中的領先優勢，實現了比CPU快237倍的AI推理性能，助力企業將AI研究轉化為生產力。

　　加利福尼亞州圣克拉拉市— 2020年10月22日— NVIDIA今日宣布，其AI計算平臺在最新一輪MLPerf基準測試中再次打破性能記錄，在這一業內唯一評估硬件、軟件和服務的第三方AI性能基準測試中進一步擴大了其領先優勢。

　　在今年第二輪MLPerf 推理測試中，NVIDIA創下了數據中心與邊緣計算系統全部六個應用領域的記錄。此次測試中，計算機視覺測試從最初的兩項擴展到四項，涵蓋了AI應用增長最快的領域，包括：推薦系統、自然語言理解、語音識別和醫療影像。

　　憑借NVIDIA? A100 Tensor Core GPU出色的推理性能，各個行業的機構將AI研究轉化為日常運營中的生產力。金融機構使用對話式AI更快速地回答客戶問題，零售商們使用AI保證貨架庫存充足，醫療機構使用AI分析數百萬張醫療影像，以更準確地診斷疾病，從而挽救生命。

　　NVIDIA加速計算部門總經理兼副總裁Ian Buck表示：“我們正處在一個轉折點，各個行業都致力于更好地利用AI，從而提供新的服務并尋求業務的發展。”

　　“NVIDIA為MLPerf上取得的成績付出了巨大的努力，將助力各企業的AI性能提升到新的高度，以改善我們的日常生活。”

　　在MLPerf最新結果出爐之際，NVIDIA 的AI推理業務也已得到迅速擴展。五年前，只有少數領先的高科技公司使用GPU進行推理。現在，企業可通過各大云和數據中心基礎設施供應商來使用NVIDIA的AI平臺。各行業都在使用NVIDIA 的AI推理平臺改善業務運營，提供更多的服務。

　　此外，NVIDIA GPU首次在公有云中實現了超越CPU的AI推理能力。基于 NVIDIA GPU的總體云端AI推理計算能力每兩年增長約10倍。

　　NVIDIA問鼎AI推理性能的新高峰

　　NVIDIA及其合作伙伴提交了基于NVIDIA加速平臺的MLPerf 0.7的測試結果。該平臺包含NVIDIA數據中心GPU、邊緣AI加速器和經過優化的NVIDIA軟件。

　　NVIDIA 于今年早些時候發布了A100。憑借其第三代Tensor Core核心和多實例GPU技術，A100在ResNet-50測試中的領先優勢進一步擴大。在上一輪測試中，它以30倍比6倍的成績擊敗了CPU的測試結果。另外，此次MLPerf Inference 0.7基準測試中，新增了針對數據中心推理性能的推薦系統測試。在該測試中，A100所展現出的性能比最先進的CPU高出237倍。

　　這意味著，一套DGX A100系統可以提供相當于近1000臺雙插槽CPU服務器的性能，能為客戶AI推薦系統模型從研發走向生產的過程，提供極高的成本效益。

　　基準測試結果顯示，NVIDIA T4 Tensor Core GPU仍然是主流企業、邊緣服務器和高成本效益云實例的可靠推理平臺。在同一測試中，NVIDIA T4 GPU的性能比CPU高出28倍。此外，NVIDIA Jetson AGX Xavier? 已成為基于Soc的邊緣設備中最強大的平臺。

　　這些結果離不開高度優化的軟件堆棧，包括NVIDIA TensorRT? 推理優化器和NVIDIA Triton? 推理服務軟件。這兩款軟件堆棧均可在NGC?（NVIDIA的軟件目錄）中獲取。

　　除NVIDIA提交的結果外，還有11家NVIDIA合作伙伴提交了基于NVIDIA GPU的1，029個測試結果，占數據中心和邊緣類別中參評測試結果總數的85％以上。

閱讀全文

NVIDIA(101461) NVIDIA(101461)
gpu(126255) gpu(126255)
數據中心(69334) 數據中心(69334)
AI(263628) AI(263628)
AI加速器(8545) AI加速器(8545)

英特爾FPGA 助力Microsoft Azure機器學習提供AI推理性能

Machine Learning SDK 相集成以供預覽。客戶可以使用 Azure 大規模部署的英特爾? FPGA（現場可編程邏輯門陣列）技術，為其模型提供行業領先的人工智能（AI） 推理性能。

2018-05-16 17:25:03

6184

NVIDIA擴大AI推理性能領先優勢，首次在Arm服務器上取得佳績

最新MLPerf基準測試表明，NVIDIA已將其在AI推理性能和能效方面的高標準擴展到Arm以及x86計算機。

2021-09-23 14:18:06

2518

MLPerf V2.0推理結果放榜，NVIDIA表現搶眼

不久前，AI性能基準評測平臺MLPerf公布了2022年首次推理（Inference v2.0）測試成績，NVIDIA的AI平臺表現依然搶眼。

2022-04-15 22:12:00

2738

NVIDIA 如何應對會話式AI帶來的推理挑戰？

NVIDIA Turing GPU和Xavier 芯片系統在首個獨立AI推理基準測試 ——MLPerf Inference 0.5中取得第一名。

2019-11-08 16:53:29

5054

性能提升20倍！NVIDIA A100 GPU打破16項AI芯片性能記錄

年5月的行業基準測試組織，致力于機器學習硬件、軟件和服務的訓練和推理性能測試，囊括行業中幾乎所有知名企業和機構，比如Intel、NVIDIA、Google、微軟、阿里巴巴等。 DGX Su

2020-07-31 08:03:00

5270

CEVA推出新型SensPro2系列高功效傳感器中樞DSP，AI推理能力提高兩倍

時間、麥克風和慣性測量單元（IMU）的多種傳感器。SensPro2?系列建立在CEVA業界領先的傳感器中樞DSP領先地位上，在相同的工藝節點上，為計算機視覺提供了六倍DSP處理性能提升，為雷達處理提供了八倍DSP性能提升，并在AI推理性能方面提升了兩倍，其功率效率相比前代產品提高了20%。

2021-01-21 16:15:41

1050

NVIDIA Jetson介紹

首發極術社區如對Arm相關技術感興趣，歡迎私信 aijishu20加入技術微信群。分享內容NVIDIA Jetson是嵌入式計算平臺，具有低功耗、高性能和小體積等特點，可加速各行業的AI應用落地

2021-12-14 08:05:01

NVIDIA Jetson的相關資料分享

Jetson概述爆炸式增長的AI模型的復雜性專為自主機器開發人員設計的AI計算板加快AI處理的SDK“JetPack”概述NVIDIA Jetson是NVIDIA公司嵌入式單板計算機的一系列

2021-11-09 08:26:45

NVIDIA 在首個AI推理基準測試中大放異彩

的BERT、GNMT 和Jasper 等AI模型開源優化幫助開發者實現頂尖推理性能。NVIDIA的客戶和合作伙伴中包括有會話式AI領域的一流公司，比如Kensho、微軟、Nuance、Optum等。最后要

2019-11-08 19:44:51

Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

類型在運行兩種常見的 FP32 ML 模型時的 ML 推理性能。我們將在以后的博客中介紹量化推理 (INT8) 的性能。工作負載[MLCommons]在其[MLPerf 推理基準套件]中提供了代表性

2022-08-31 15:03:46

Dllite_micro （輕量級的 AI 推理框架）

DLLite-Micro 是一個輕量級的 AI 推理框架，可以為 OpenHarmony OS 的輕量設備和小型設備提供深度模型的推理能力DLLite-Micro 向開發者提供清晰、易上手的北向接口

2021-08-05 11:40:11

三星打破上網本既有模式性能尺寸接近傳統筆記本

三星打破上網本既有模式性能尺寸接近傳統筆記本CNET科技資訊網7月1日國際報道 Nvidia證實，三星將推出一款采用其Ion芯片組的上網本，打破這類產品既有的模式。 Nvidia筆記本電腦產品部門

2009-07-01 21:47:27

充分利用Arm NN進行GPU推理

的是要知道它提供的選項來提高推理性能。作為開發人員，您會尋找可以壓縮的每一毫秒，尤其是在需要實現實時推理時。讓我們看一下Arm NN中可用的優化選項之一，并通過一些實際示例評估它可能產生

2022-04-11 17:33:06

基于SRAM的方法可以加速AI推理

基于SRAM的方法可加速AI推理

2020-12-30 07:28:28

如何在RK3399上搭建Tengine AI推理框架呢

Tengine是什么？如何在RK3399這一 Arm64 平臺上搭建 Tengine AI 推理框架，并運行圖像識別相關應用？

2022-03-07 07:53:43

如何提高YOLOv4模型的推理性能？

使用 PyTorch 對具有非方形圖像的 YOLOv4 模型進行了訓練。將權重轉換為 ONNX 文件，然后轉換為中間表示（IR）。無法確定如何獲得更好的推理性能。

2023-08-15 06:58:00

嵌入式邊緣AI應用開發指南

的參考。評估TI處理器模型性能的方式有兩種：TDA4VM入門套件評估模塊(EVM)或TI Edge AI Cloud，后者是一項免費在線服務，可支持遠程訪問TDA4VM EVM，以評估深度學習推理性能。借助

2022-11-03 06:53:28

求助，為什么將不同的權重應用于模型會影響推理性能？

生成兩個 IR文件（相同的 .xml 文件，但不同的 .bin 文件）具有不同重量的類似模型，以不同的 fps （27fps 和 6fps）運行更多樣化的權重是否會影響 Myriad X 上的推理性能？

2023-08-15 07:00:25

深度剖析OpenHarmony AI調度管理與推理接口

1 簡介AI任務管理與統一的推理能力提供了接口的統一標準系統上CPU提供了AI任務調度管理的能力，對AI的能力進行了開放的推理和推理，同時，提供了一個不同的生命周期框架層級的應用程序。推理接口

2022-03-25 11:15:36

深度學習推理和計算-通用AI核心

，支持廣泛的應用程序和動態工作負載。本文將討論這些行業挑戰可以在不同級別的硬件和軟件設計采用Xilinx VERSAL AI核心，業界首創自適應計算加速平臺超越了CPU/GPU和FPGA的性能。

2020-11-01 09:28:57

一種大規模IP網絡多鏈路擁塞推理算法

基于最小集覆蓋理論的擁塞鏈路推理算法，僅對共享瓶頸鏈路進行推理，當擁塞路徑存在多條鏈路擁塞時，算法的推理性能急劇下降．針對該問題，提出一種基于貝葉斯最大后驗（Bayesian maxlmum

2017-12-27 10:35:00

貝葉斯IP網絡擁塞鏈路推理

針對CLINK算法在路由改變時擁塞鏈路推理性能下降的問題，建立一種變結構離散動態貝葉斯網模型，通過引入馬爾可夫性及時齊性假設簡化該模型，并基于簡化模型提出一種IP網絡擁塞鏈路推理算法（VSDDB

2018-01-16 18:46:26

英特爾FPGA為人工智能(AI)提供推理性能

Azure Machine Learning SDK 相集成以供預覽。客戶可以使用 Azure 大規模部署的英特爾 FPGA（現場可編程邏輯門陣列）技術，為其模型提供行業領先的人工智能 (AI) 推理性能。 “作為一家整體技術提供商，我們通過與 Microsoft 密切合作為人工智能提供支持。

2018-05-20 00:10:00

2865

Xavier的硬件架構特性！Xavier推理性能評測

Xavier主要用于邊緣計算的深度神經網絡推理，其支持Caffe、Tensorflow、PyTorch等多種深度學習框架導出的模型。為進一步提高計算效率，還可以使用TensorRT對訓練好的模型利用

2019-04-17 16:55:40

17861

Nvidia打破實時對話AI的訓練和推理用時記錄

Nvidia用于開發和運行可理解和響應請求的對話式AI的GPU強化平臺，已經達成了一些重要的里程碑，并打破了一些記錄。

2019-08-15 14:26:25

2278

NVIDIA在最新AI推理基準測試中大獲成功

MLPerf Inference 0.5是業內首個獨立AI推理基準套件，其測試結果證明了NVIDIA Turing數據中心GPU以及 NVIDIA Xavier 邊緣計算芯片系統的性能。

2019-11-29 14:45:02

2696

世界上最復雜的AI芯片Colossus MK2或GC200 IPU？

Graphcore表示，MK2的BERT-Large訓練性能比MK1改進了9.3倍，BERT-3Layer推理性能提高了8.5倍，EfficientNet-B3培訓的性能提高了7.4倍。

2020-07-20 14:58:00

3213

DeepCube宣布推出唯一基于軟件的推理加速器

DeepCube專注于深度學習技術的研發，這些技術可改善AI系統的實際部署。該公司的眾多專利創新包括更快，更準確地訓練深度學習模型的方法，以及在智能邊緣設備上大大提高的推理性能的方法。

2020-09-10 14:40:37

1878

利用NVIDIA模型分析儀最大限度地提高深度學習的推理性能

你已經建立了你的深度學習推理模型并將它們部署到 NVIDIA Triton Inference Serve 最大化模型性能。你如何進一步加快你的模型的運行速度？進入 NVIDIA模型分析器

2020-10-21 19:01:03

407

浪潮AI服務器NF5488A5一舉創造18項性能紀錄

美國東部時間10月21日，全球備受矚目的權威AI基準測試MLPerf公布今年的推理測試榜單，浪潮AI服務器NF5488A5一舉創造18項性能紀錄，在數據中心AI推理性能上遙遙領先其他廠商產品

2020-10-23 16:59:44

1615

NVIDIA A100 GPU推理性能237倍碾壓CPU

）的12個提交者增加了近一倍。結果顯示，今年5月NVIDIA（Nvidia）發布的安培（Ampere）架構A100 Tensor Core GPU，在云端推理的基準測試性能是最先進Intel CPU

2020-10-23 17:40:02

3929

浪潮AI服務器，屠榜刷新全球18項性能測試記錄

美國東部時間10月21日，全球倍受矚目的權威AI基準測試MLPerf公布今年的推理測試榜單，浪潮AI服務器NF5488A5一舉創造18項性能記錄，在數據中心AI推理性能上遙遙領先其他廠商產品。

2020-10-26 16:30:44

1709

浪潮AI服務器NF5488A5的實測數據分享，單機最大推理路數提升88%

近日，在GTC China元腦生態技術論壇上，中科極限元、趨動科技、睿沿科技等元腦生態伙伴分享了多個場景下浪潮AI服務器NF5488A5的實測數據，結果表明浪潮NF5488A5大幅提升了智能語音、圖像識別等AI模型的訓練和推理性能，促進了產業AI解決方案的開發與應用。

2020-12-24 15:25:01

2123

NVIDIA預訓練模型和遷移學習工具包3.0助力快速實現生產級AI

一個支持邊緣實時推理的姿態估計模型，其推理性能比OpenPose模型快9倍。

2021-06-25 11:55:52

1450

NVIDIA在推理方面取得突破，從云端到邊緣實現更智能、更具互動性的對話式AI

NVIDIA于今日發布公司第八代AI軟件TensorRT? 8。該軟件將語言查詢推理時間縮短了一半，使開發者能夠從云端到邊緣構建全球最佳性能的搜索引擎、廣告推薦和聊天機器人。

2021-07-21 15:07:57

3208

阿里云震旦異構計算加速平臺基于NVIDIA Tensor Core GPU

。并基于8張NVIDIA A100 GPU和開放規則，以離線場景下每秒處理107.8萬張圖片的成績，打破MLPerf 1.0推理性能測試紀錄。阿里云自研震旦異構計算加速平臺，適配GPU、ASIC等多種異構

2021-08-13 10:17:29

3119

NVIDIA GPU助力提升模型訓練和推理性價比

，其中的模型數量達數千個，日均調用服務達到千億級別。無量推薦系統，在模型訓練和推理都能夠進行海量Embedding和DNN模型的GPU計算，是目前業界領先的體系結構設計。傳統推薦系統面臨挑戰傳統推薦系統具有以下特點：訓練是基于參數

2021-08-23 17:09:03

4486

NVIDIA發布Triton 推理服務器重大更新，全球超過25000余家公司部署NVIDIA AI推理平臺

NVIDIA 認證系統可以幫助客戶在高性能、經濟高效且可擴展的基礎設施上為各種現代 AI 應用識別、獲取和部署系統，該認證系統現在包含兩個新的邊緣AI類別。

2021-11-10 14:27:21

1216

NVIDIA宣布其AI推理平臺的重大更新

軟件的新功能，該軟件為所有AI模型和框架提供跨平臺推理；同時也包含對NVIDIA TensorRT的更新，該軟件優化AI模型并為NVIDIA GPU上的高性能推理提供運行時優化。 NVIDIA還推出了NVIDIA A2 Tensor Core GPU，這是一款用于邊

2021-11-12 14:42:53

1684

深度學習工程之道|MegEngine推理性能優化技術綜述，CPU上極限加速

MegEngine「訓練推理一體化」的獨特范式，通過靜態圖優化保證模型精度與訓練時一致，無縫導入推理側，再借助工業驗證的高效卷積優化技術...

2022-02-07 10:59:49

NVIDIA發布最新Orin芯片提升邊緣AI標桿

在首次參加行業 MLPerf 基準測試時，基于 NVIDIA Ampere 架構的低功耗系統級芯片 NVIDIA Orin 就創造了新的AI推理性能紀錄，并在邊緣提升每個加速器的性能。

2022-04-08 10:14:44

4200

NVIDIA推理平臺和全棧方法提供最佳性能

現在，您和開發人員社區的其他成員都可以使用這些成果，主要是以開源軟件的形式。此外， TensorRT 和 Triton 推理服務器可從?NVIDIA NGC?免費獲得，以及預訓練模型、深度學習框架

2022-04-08 16:31:31

931

NVIDIA TensorRT助力打造AI計算機視覺算法推理平臺

“在使用 NVIDIA TensorRT和NVIDIA T4 GPU對平臺賦能后，“極星”推理平臺的算法推理效率得到了進一步的提升，更好地支持速接入各類算法、數據及智能設備，實現AI自閉環能力，并通過應用服務和標準化接口，幫助終端客戶低成本實現AI與業務的結合，快速構建智能應用。

2022-04-13 14:49:19

862

使用NVIDIA Triton推理服務器簡化邊緣AI模型部署

　　NVIDIA Triton 有助于在每個數據中心、云和嵌入式設備中實現標準化的可擴展生產 AI 。它支持多個框架，在 GPU 和 DLA 等多個計算引擎上運行模型，處理不同類型的推理查詢。通過與 NVIDIA JetPack 的集成， NVIDIA Triton 可用于嵌入式應用。

2022-04-18 15:40:02

2306

NVIDIA助力騰訊AI LAB打造一體AI生態

　　在虛擬人項目中，NVIDIA CUDA技術大幅提升了渲染速度，NVIDIA TensorRT 方便快速地加速深度學習模型的推理，結合MPS技術，實現了單卡多路推流，使整體推理效率達到了原來的三倍！性能的大幅提升，既提升了GPU的利用率，又降低了AI技術的使用成本。

2022-04-21 10:50:24

751

NVIDIA自動駕駛網絡會議將6月9日舉辦

NVIDIA DRIVE Orin 現已投產，可在深度神經網絡推理性能方面實現重大飛躍。6 月 9 日，NVIDIA 將舉辦一場網絡會議，介紹 DNN 架構設計以及 NVIDIA TensorRT 的范圍，旨在為生產提供經過優化的推理引擎。

2022-05-21 10:24:05

1154

如何在OpenVINO 開發套件中“無縫”部署PaddlePaddle BERT模型

OpenVINO 開發套件是Intel平臺原生的深度學習推理框架，自2018年推出以來，Intel已經幫助數十萬開發者大幅提升了AI推理性能，并將其應用從邊緣計算擴展到企業和客戶端。

2022-06-24 11:05:30

1153

MLPerf是邊緣AI推理的新行業基準

　　最新的 AI 推理基準顯然具有重要意義，因為它是目前可用的最接近真實世界 AI 推理性能的衡量標準。但隨著它的成熟和吸引更多的提交，它也將成為成功部署技術堆棧的晴雨表和新實施的試驗場。

2022-07-08 15:37:55

1246

英特爾四大層面，提升DeepRec訓練和推理能力

DeepRec 集成了英特爾開源的跨平臺深度學習性能加速庫oneDNN (oneAPI Deep Neural Network Library)，該程序庫已經針對大量主流算子實現了性能優化。與搭載 BF16 指令的第三代英特爾至強可擴展處理器同時使用，可顯著提高模型訓練和推理性能。

2022-07-10 10:56:19

864

用于深度學習推理的高性能工具包

　　綜上所述，這個新版本的 OpenVINO 工具包提供了許多好處，不僅優化了用戶部署應用程序的體驗，還增強了性能參數。它使用戶能夠開發具有易于部署、更多深度學習模型、更多設備可移植性和更高推理性能且代碼更改更少的應用程序。

2022-07-12 10:08:57

864

騰訊云與NVIDIA仍持續為AI推理加速進行合作

Kit 不僅大大提升了 GPU 集群上多機多卡分布式訓練的效率，對于 GPU 上的模型推理也通過集成 NVIDIA TensorRT 帶來了顯著加速。雙方團隊就 GPU 推理加速這一話題將進行持續深入的合作，推出定制化的優化方案，為業界客戶帶來顯著的性能收益。

2022-08-31 09:24:07

1235

騰訊云TI平臺利用NVIDIA Triton推理服務器構造不同AI應用場景需求

騰訊云 TI 平臺 TI-ONE 利用 NVIDIA Triton 推理服務器構造高性能推理服務部署平臺，使用戶能夠非常便捷地部署包括 TNN 模型在內的多種深度學習框架下獲得的 AI 模型，并且顯著提升推理服務的吞吐、提升 GPU 利用率。

2022-09-05 15:33:01

1419

螞蟻鏈AIoT團隊與NVIDIA合作加速AI推理

螞蟻鏈 AIoT 團隊與 NVIDIA 合作，將量化感知訓練(QAT)技術應用于深度學習模型性能優化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進行高效率部署，通過 INT8 推理，吞吐量提升了 3 倍，助力螞蟻鏈版權 AI 平臺中的模型推理服務大幅降本增效。

2022-09-09 09:53:52

872

NVIDIA 發布AI 驅動的性能倍增器NVIDIA DLSS 3

NVIDIA 發布 NVIDIA DLSS 3--一款由 AI 驅動的性能倍增器，開啟 NVIDIA RTX 神經網絡渲染游戲和應用的新時代。

2022-09-22 10:36:12

880

在Azure機器學習上提高人工智能模型推理性能

每個 AI 應用程序都需要強大的推理引擎。無論您是部署圖像識別服務、智能虛擬助理還是欺詐檢測應用程序，可靠的推理服務器都能提供快速、準確和可擴展的預測，具有低延遲（對單個查詢的響應時間較短）和高吞吐量（在給定時間間隔內處理大量查詢）。然而，檢查所有這些方框可能很難實現，而且成本高昂。

2022-10-11 09:49:22

790

使用GPUNet在NVIDIA GPU上擊敗SOTA推理性能

高效的體系結構搜索和部署就緒模型是 NAS 設計方法的關鍵目標。這意味著幾乎不與領域專家進行交互，并且有效地使用集群節點來培訓潛在的架構候選。最重要的是，生成的模型已準備好部署。

2022-10-11 10:14:43

677

通過稀疏性支持和變壓器優化增強AI推理

　　NVIDIA 張量RT 是一個高性能推理平臺，對于利用 NVIDIA 張量核心 GPU 的強大功能至關重要。TensorRT 8 是一個具有增強功能的軟件開發工具包，旨在提高性能和準確性，以應對邊緣和嵌入式設備中發生的越來越多的 AI 推理。它允許對張量流和PyTorch神經網絡進行廣泛的計算推斷。

2022-10-18 09:32:46

390

NVIDIA Triton推理服務器的基本特性及應用案例

推理識別是人工智能最重要的落地應用，其他與深度學習相關的數據收集、標注、模型訓練等工作，都是為了得到更好的最終推理性能與效果。

2022-10-26 09:43:57

1370

低門檻AI部署工具FastDeploy開源！

為了解決AI部署落地難題，我們發起了FastDeploy項目。FastDeploy針對產業落地場景中的重要AI模型，將模型API標準化，提供下載即可運行的Demo示例。相比傳統推理引擎，做到端到端的推理性能優化。

2022-11-08 14:28:12

1576

三行代碼完成AI模型的部署！

為了解決AI部署落地難題，我們發起了FastDeploy項目。FastDeploy針對產業落地場景中的重要AI模型，將模型API標準化，提供下載即可運行的Demo示例。相比傳統推理引擎，做到端到端的推理性能優化。FastDeploy還支持在線（服務化部署）和離線部署形態，滿足不同開發者的部署需求。

2022-11-10 10:18:32

909

MLPerf世界紀錄技術分享：優化卷積合并算法提升Resnet50推理性能

（3D-UNet）、目標物體檢測（SSD-ResNet34）、語音識別（RNN-T）、自然語言理解（BERT）以及智能推薦（DLRM）。在MLPerf V2.0推理競賽中，浪潮AI服務器基于ImageNet數據集在離線場景中運行Resnet50，達到了449,856 samples/s的計算性能，位居世界第一。

2022-11-10 14:43:40

1197

OneFlow 將 Stable Diffusion的推理性能推向了一個全新的SOTA

起初，AI 作圖需要幾天，再縮減到幾十分鐘，再到幾分鐘，出圖時間在不斷加速，問題是，究竟快到什么程度，才會在專業的美術從業者甚至普通大眾之間普及開來？

2022-11-30 10:03:57

704

在 NGC 上玩轉新一代推理部署工具 FastDeploy，幾行代碼搞定 AI 部署

模型，并提供開箱即用的云邊端部署體驗，實現 AI 模型端到端的推理性能優化。歡迎廣大開發者使用 NVIDIA 與飛槳聯合深度適配的 NGC 飛槳容器，在 NVIDIA GPU 上進

2022-12-13 19:50:05

909

如何最大化推理性能？Triton 社區技術交流活動與您暢聊

、NVIDIA 的技術專家將帶來 AI Infra 、推理引擎相關的專題分享，包括目前各企業面臨的模型推理挑戰、Triton 的應用及落地的具體方案等，現身說法，干貨十足。此外，還有來自

2023-02-15 16:10:05

207

寧暢率先支持NVIDIA L4 和 L40 GPU

了基于L4和L40的NVIDIA推理平臺，得益于對全新FP8 精度的支持，其可提供高達4倍的性能提升，將視頻和圖形處理性能也提升了4倍。NVIDIA L4 Tensor Core G

2023-03-22 14:27:49

525

NVIDIA推出用于大型語言模型和生成式AI工作負載的推理平臺

日 – NVIDIA于今日推出四款推理平臺。這些平臺針對各種快速興起的生成式AI應用進行了優化，能夠幫助開發人員快速構建用于提供新服務和洞察的AI驅動的專業應用。 ? 這些平臺將NVIDIA的全棧推理

2023-03-22 14:48:39

256

GTC23 | NVIDIA 推出用于大型語言模型和生成式 AI 工作負載的推理平臺

日 – NVIDIA 于今日推出四款推理平臺。這些平臺針對各種快速興起的生成式 AI 應用進行了優化，能夠幫助開發人員快速構建用于提供新服務和洞察的 AI 驅動的專業應用。這些平臺將 NVIDIA

2023-03-23 06:55:02

654

NVIDIA 在 MLPerf 測試中將推理帶到新高度

的第三方基準測試，MLPerf 仍是衡量 AI 性能的權威標準。自 MLPerf 誕生以來，NVIDIA 的 AI 平臺在訓練和推理這兩個方面一直展現出領先優勢，包括最新發布的 MLPerf

2023-04-08 00:30:08

389

攜程攜手英特爾優化AI推理性能，提升性能的同時降低TCO

的多元化，給人工智能（AI）技術在旅游行業的應用帶來更多機遇和挑戰。例如自然語言處理（NLP）、機器翻譯、計算機視覺、搜索排序等 AI 技術的快速發展和日臻成熟，可以為游客提供更便捷的服務和更精準的內容。作為一站式旅行平臺，攜程旅行已經將諸多AI 技術應用

2023-06-09 20:30:02

333

192個自研核心，AmpereOne的絕對性能壓制

AI推理性能對比 / Ampere 從性能對比上，我們可以看出AmpereOne在AI推理負載上的領先，比如在生成式AI和推薦算法上，AmpereOne的單機架性能是AMD EYPC 9654 Genoa的兩倍或以上，但兩者卻有著近乎相同的系統功耗，AmpereOne的優勢在此展現得一覽無余。

2023-06-13 15:03:51

789

研揚BOXER-8640AI –全能AI解決方案

1792個CUDA和56個Tensor內核，使其算力能夠達到200TOPS。這使得BOXER-8640AI能夠同時在多個視頻流中利用顛覆性的轉換推理性能。研揚專業設計

2023-03-15 14:26:20

426

如何使用NVIDIA Triton 推理服務器來運行推理管道

使用集成模型在 NVIDIA Triton 推理服務器上為 ML 模型管道提供服務

2023-07-05 16:30:34

1082

英特爾? AMX 加速AI推理性能，助阿里電商推薦系統成功應對峰值負載壓力

達沃斯論壇｜英特爾王銳：AI驅動工業元宇宙，釋放數實融合無窮潛力英特爾研究院發布全新AI擴散模型，可根據文本提示生成360度全景圖英特爾內部代工模式的最新進展原文標題：英特爾? AMX 加速AI推理性能，助阿里電商推薦系統成功應對峰值負載

2023-07-08 14:15:03

294

英特爾? AMX 助力百度ERNIE-Tiny AI推理性能提升2.66倍，盡釋AI加速潛能

科技賦能千行百業人民網攜手英特爾啟動“數智加速度”計劃 WAIC 2023：英特爾以技術之力推動邊緣人工智能發展，打造數字化未來“芯”時代英特爾 AMX 加速AI推理性能，助阿里電商推薦系統成功應對峰值負載壓力原文標題：英特爾? AMX 助力百度ERNIE-T

2023-07-14 20:10:05

245

新的 MLPerf 推理網絡部分展現 NVIDIA InfiniBand 網絡和 GPUDirect RDMA 的強大能力

中，網絡軟、硬件對于端到端推理性能的影響。在網絡評測中，有兩類節點：前端節點生成查詢，這些查詢通過業界標準的網絡（如以太網或 InfiniBand 網絡）發送到加速節點，由加速器節點進行處理和執行推理。圖 1：單節點封閉測試環境與多節點網絡測試環境圖 1 顯示了在單個節點上運行的封閉測試環

2023-07-19 19:10:03

603

第四代英特爾? 至強? 可擴展處理器助東華發思特“神農 AI 中臺”推理性能提升4.5倍

工智能市場規模在 2023 年將超過 147 億美元，到 2026年將超過 264 億美元 1 。在端到端的 AI 整體應用流程中，AI 推理是其中的關鍵環節。在 AI 推理的算力設備選擇方面，CPU 服務器具備更強的靈活性、敏捷性，能夠支持大數據、云計算、虛擬化等多種業務的彈

2023-07-28 19:45:06

470

百度商業 AI 技術創新大賽圓滿落幕，NVIDIA 特設女性專屬獎項為技術創新添彩！

商業 AI 技術創新大賽在北京百度科技園圓滿落幕，來自各大高校的 12 支技術團隊，分別在“商業轉化行為預測”、“AIGC 推理性能優化”兩大賽道取得了豐碩的創新成果。 NVIDIA 全球副總裁劉念寧、百度集團副總裁，移動生態商業體系負責人王鳳陽、NVIDIA 中國區工程和

2023-08-21 21:05:02

388

生成式AI時代要來了嗎 NVIDIA生成式AI獲新突破

這些性能強大的新系統將利用 NVIDIA Omniverse 平臺加速高計算密集度的復雜應用，包括 AI 訓練和推理、3D 設計和可視化、視頻處理、工業數字化等。

2023-08-23 14:20:18

224

升騰910和含光800性能對比昇騰910和含光800性能對比

是高性能的AI推理芯片。該芯片推理性能達到78563 IPS，能效比500 IPS/W。含光800AI芯片基于RISC-V和阿里自有算法，含光800芯片性能的突破得益于軟硬件的協同創新：硬件層面采用自研芯片架構，通過推理加速等技術有效解決芯片性能瓶頸問題；軟件層面集成了達摩院先進算法，針對CNN及視

2023-08-31 17:31:24

1805

NVIDIA Grace Hopper 超級芯片橫掃 MLPerf 推理基準測試

從云端到網絡邊緣，NVIDIA GH200、H100 和 L4 GPU 以及 Jetson Orin 模組在運行生產級 AI 時均展現出卓越性能。 NVIDIA GH200 Grace Hopper

2023-09-12 20:40:04

249

NVIDIA Grace Hopper超級芯片橫掃MLPerf推理基準測試

從云端到網絡邊緣，NVIDIA GH200、H100和L4 GPU以及Jetson Orin模組在運行生產級 AI 時均展現出卓越性能。 ? ? ? NVIDIA GH200 Grace

2023-09-13 09:45:40

139

昇騰910和含光800性能對比

的AI推理芯片。該芯片推理性能達到78563 IPS，能效比500 IPS/W。含光800AI芯片基于RISC-V和阿里自有算法，含光800芯片性能的突破得益于軟硬件的協同創新：硬件層面采用自研芯片架構，通過推理加速等技術有效解決芯片性能瓶頸問題；軟件層面集成了達摩院先進算法，針對CNN及視覺類算法

2023-10-16 17:29:42

1021