那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AMD助力HyperAccel開發(fā)全新AI推理服務器

Xilinx賽靈思官微 ? 來源:Xilinx賽靈思官微 ? 2024-09-18 09:37 ? 次閱讀

HyperAccel 是一家成立于 2023 年 1 月的韓國初創(chuàng)企業(yè),致力于開發(fā) AI 推理專用型半導體器件和硬件,最大限度提升推理工作負載的存儲器帶寬使用,并通過將此解決方案應用于大型語言模型來提高成本效率。HyperAccel 針對新興的生成式 AI 應用提供超級加速的芯片 IP/解決方案。HyperAccel 已經(jīng)打造出一個快速、高效且低成本的推理系統(tǒng),加速了基于轉(zhuǎn)換器的大型語言模型( LLM )的推理,此類模型通常具有數(shù)十億個參數(shù),例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名為時延處理單元( LPU ),是專門用于 LLM 端到端推理的硬件加速器。

項目挑戰(zhàn)

隨著 LLM 應用的擴展,對高效、快速和具成本效益的推理解決方案的需求不斷上升。對于云服務提供商而言,快速且成本效益高的推理硬件對于托管高性能的生成式 AI 應用并降低總擁有成本( TCO )至關(guān)重要。對于 AI 企業(yè)來說,一個直觀的軟件堆棧平臺是實現(xiàn)其應用或模型無縫部署的必備條件。對于服務業(yè)務,提供全面的端到端解決方案也是必要的,有利于將最先進的 AI 技術(shù)集成到更有效和先進的服務中。

解決方案

HyperAccel 提出通過開發(fā)名為“Orion”的服務器來解決成本和性能問題,該服務器搭載了一個為 LLM 推理量身定制的專用處理器,基于多個高性能 AMD FPGA部署。Orion 充分利用每個 FPGA 的存儲器帶寬和硬件資源以獲得最高水平的性能。這種可擴展的架構(gòu)支持最新的 LLM,此類模型通常包含數(shù)十億個參數(shù)。

Orion 擁有 16 個時延處理單元( LPU ),它們分布在兩個 2U 機架中,提供總共 7.36TB/s 的 HBM 帶寬和 14.4 萬個 DSP。LPU 能加速內(nèi)存和計算都非常密集的超大規(guī)模生成式 AI 工作負載。Orion 及其 256GB 的 HBM 容量支持多達千億參數(shù)的最先進 LLM。上圖展示了兩個 2U 機箱之一,配有 8 個 LPU。

下圖顯示了 LPU 架構(gòu),其中矢量執(zhí)行引擎由 AMD Alveo U55C 高性能計算卡支持。Alveo U55C 卡具有高帶寬存儲器( HBM2 ),解決了提供低時延AI 的最關(guān)鍵性能瓶頸——存儲器帶寬。此外,它們能夠?qū)?200 Gbps的高速網(wǎng)絡集成到單個小型板卡中,并且經(jīng)過精心設(shè)計可在任何服務器中部署。

反過來,每個 Alveo 加速卡都由 FPGA 架構(gòu)驅(qū)動。鑒于 FPGA 的大規(guī)模硬件并行性和靈活應變的存儲器層次結(jié)構(gòu),F(xiàn)PGA 固有的低時延特性非常適合 LLM 所需的實時 AI 服務。Alveo 卡采用了強大的 Virtex XCU55P UltraScale+ FPGA,可提供高達 38 TOPS 的 DSP 計算性能,有助于 AI 推理優(yōu)化,包括用于定點與浮點計算的 INT8。這款 FPGA 能夠根據(jù)客戶反饋調(diào)整其處理器( LPU )的架構(gòu),例如,根據(jù)要求在Llama模型中實現(xiàn)一些非標準的處理,進而提供靈活的解決方案,能夠適應不斷變化的市場和 LLM 參數(shù)條件。

wKgaombqLxCAdBaIAAGAxEvslZA335.png

設(shè)計成效

Orion 的高性能和可擴展性是通過 LPU 實現(xiàn)的,由 AMD Alveo 加速卡和相關(guān)的 FPGA 以及HyperAccel 的可擴展同步鏈路( ESL )技術(shù)提供支持。這些技術(shù)最大限度提升了 P2P 傳輸中的存儲器帶寬使用,有利于靈活處理,同時消除了 P2P 計算的同步開銷 ESL 屬于為 LLM 推理中的數(shù)據(jù)傳輸優(yōu)化的通信鏈路。值得注意的是,Orion 在支持標準 FP16 數(shù)據(jù)精度的硬件上保持了卓越的準確性。

HyperAccel Orion

的性能

針對時延進行優(yōu)化的 HyperAccel Orion 與基于轉(zhuǎn)換器的 LLM(如 GPT、Llama 和 OPT)無縫集成,能夠在 1.3B 模型上每秒生成超過 520 個令牌,在 7B 模型上每秒生成 175 個令牌。除了卓越的性能外,Orion 還展示了出色的能源效率,在 66B 模型上生成單個令牌只需 24 毫秒,而功耗僅為 600W。

wKgaombqLxWAduahAADVjgfBfyc650.png

HyperAccel LPU 的性能(來源:https://www.hyperaccel.ai)

HyperAccel Orion

—— 工作負載多樣性

Orion 提供端到端的解決方案服務,可作為云端服務部署。對于擁有專有 LLM 的AI 企業(yè)或存在內(nèi)部數(shù)據(jù)隱私與安全需求的專業(yè)部門,Orion 也能夠以本地解決方案的形式進行安裝。Orion 能夠處理以下工作負載/應用:

客戶服務:通過虛擬聊天機器人和虛擬助手實時處理查詢,因此人工客服將有時間處理更復雜的問題。

人機界面:在自助服務終端、機器人和其它設(shè)備中支持與語言相關(guān)的功能,以增強客戶互動體驗。

文本生成:協(xié)助生產(chǎn)、總結(jié)和精煉復雜的文本內(nèi)容,為用戶提供便利。

語言翻譯:翻譯客戶查詢和回復信息,打破語言障礙,擴大企業(yè)的全球影響力。

問答:根據(jù)大量數(shù)據(jù)以及此前的互動和偏好記錄,定制針對個別客戶的回復,以提高客戶滿意度。

進一步了解AMD Virtex UltraScale+ FPGA和Alveo U55C 加速卡,請訪問產(chǎn)品專區(qū)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1630

    文章

    21796

    瀏覽量

    605976
  • amd
    amd
    +關(guān)注

    關(guān)注

    25

    文章

    5496

    瀏覽量

    134629
  • 服務器
    +關(guān)注

    關(guān)注

    12

    文章

    9303

    瀏覽量

    86059
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31513

    瀏覽量

    270308

原文標題:HyperAccel 借助 AMD 加速卡與 FPGA 打造全新 AI 推理服務器

文章出處:【微信號:賽靈思,微信公眾號:Xilinx賽靈思官微】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    聯(lián)想發(fā)布基于第五代AMD EPYC處理服務器產(chǎn)品

    系列服務器產(chǎn)品家族以及一款全新ThinkSystem AMD塔式服務器,雙方共同攜手加速中國 AI算力基礎(chǔ)設(shè)施的高速發(fā)展,滿足千行萬業(yè)智能化
    的頭像 發(fā)表于 12-16 16:23 ?380次閱讀

    上海永銘電子全新高壓牛角型鋁電解電容IDC3系列,助力AI服務器電源高效運轉(zhuǎn)

    隨著數(shù)據(jù)中心和云計算的高速發(fā)展,AI服務器的能效要求日益提高。如何在有限空間內(nèi)實現(xiàn)更高的功率密度和穩(wěn)定的電源管理,成為AI服務器電源設(shè)計的一大挑戰(zhàn)。永銘推出
    的頭像 發(fā)表于 12-03 15:27 ?286次閱讀

    什么是AI服務器?AI服務器的優(yōu)勢是什么?

    AI服務器是一種專門為人工智能應用設(shè)計的服務器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片的組合來滿足高吞吐量互聯(lián)的需求,為自然語言處理、計算機視覺、機器學習等人工智能應用場景提
    的頭像 發(fā)表于 09-21 11:43 ?1041次閱讀

    AI服務器:開啟智能計算新時代

    一、AI服務器的定義與特點 AI服務器的定義 AI服務器是一種基于云計算技術(shù),專為處理人工
    的頭像 發(fā)表于 08-09 16:08 ?1039次閱讀

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理服務,與同樣剛推出的 Llama 3.1
    的頭像 發(fā)表于 07-25 09:48 ?790次閱讀

    AI服務器的特點和關(guān)鍵技術(shù)

    AI服務器,即人工智能服務器,是一種專門設(shè)計用于運行和加速人工智能(AI)算法與模型的硬件設(shè)備。隨著人工智能技術(shù)的快速發(fā)展和普及,AI
    的頭像 發(fā)表于 07-17 16:34 ?1973次閱讀

    安徽京準:北斗衛(wèi)星授時服務器 NTP服務器 助力智慧城市建設(shè)

    安徽京準:北斗衛(wèi)星授時服務器(NTP服務器助力智慧城市建設(shè)
    的頭像 發(fā)表于 07-16 15:32 ?366次閱讀
    安徽京準:北斗衛(wèi)星授時<b class='flag-5'>服務器</b> NTP<b class='flag-5'>服務器</b> <b class='flag-5'>助力</b>智慧城市建設(shè)

    ai服務器是什么架構(gòu)類型

    AI服務器,即人工智能服務器,是專門為人工智能應用設(shè)計的高性能計算服務器。AI服務器的架構(gòu)類型有
    的頭像 發(fā)表于 07-02 09:51 ?1233次閱讀

    ai服務器和通用服務器的區(qū)別在哪

    注重穩(wěn)定性和可靠性,通常采用較為穩(wěn)定的硬件配置。 1.1 CPU AI服務器通常采用高性能的CPU,如Intel Xeon或AMD EPYC等。這些CPU具有更多的核心和更高的主頻,可以提供更高的計算能力。而通用
    的頭像 發(fā)表于 07-02 09:46 ?1195次閱讀

    英偉達新業(yè)務動向:AI服務器市場的新變局

    在全球AI技術(shù)迅猛發(fā)展的浪潮中,英偉達正積極布局,尋求新的業(yè)務增長點。據(jù)最新報道,英偉達計劃為其即將推出的GB200旗艦人工智能芯片設(shè)計服務器機架,此舉無疑將對該領(lǐng)域的傳統(tǒng)廠商如戴爾、HPE和AMD等構(gòu)成一定壓力,甚至可能引發(fā)
    的頭像 發(fā)表于 06-21 14:11 ?1078次閱讀

    英飛凌推出全新CoolSiC? 400V MOSFET系列,滿足AI服務器需求

    擴展至400V領(lǐng)域,并推出了全新的CoolSiC?400VMOSFET系列。這一創(chuàng)新產(chǎn)品不僅滿足了AI服務器電源(PSU)日益增長的功率需求,同時保持了服務器機架規(guī)
    的頭像 發(fā)表于 05-29 11:36 ?855次閱讀
    英飛凌推出<b class='flag-5'>全新</b>CoolSiC? 400V MOSFET系列,滿足<b class='flag-5'>AI</b><b class='flag-5'>服務器</b>需求

    英偉達首次向OpenAI供應AI服務器,鴻海出貨預期將增長

    自2017年起,鴻海便開始與英偉達合作開發(fā)服務器,其中包括世界上首臺AI服務器HGX1。值得注意的是,OpenAI成立之初,有一張照片展示了黃仁勛贈予馬斯克一臺
    的頭像 發(fā)表于 04-26 16:18 ?999次閱讀

    臺積電:AI服務器處理預計翻番,拉動收入增長?

    臺積電將 AI 服務器處理嚴格限定為用于 AI 訓練與推理的 GPU、CPU 及 AI 加速
    的頭像 發(fā)表于 04-19 15:04 ?407次閱讀

    AMD EPYC處理AI推理能力究竟有多強?

    如今,AMD EPYC處理已經(jīng)成為最常被選擇用于AI推理服務器平臺,尤其是第四代Genoa EPYC 9004系列,執(zhí)行
    發(fā)表于 03-15 09:47 ?567次閱讀

    使用NVIDIA Triton推理服務器來加速AI預測

    這家云計算巨頭的計算機視覺和數(shù)據(jù)科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。
    的頭像 發(fā)表于 02-29 14:04 ?634次閱讀
    百家乐好不好| 五湖四海娱乐| 百家乐官网投注之对冲投注| 百家乐庄闲的分布| 大发888网页出纳柜台| 百家乐官网赌具哪里最好| 百家乐使用技法| 大发888注册奖金| 百家乐官网微笑投注| 百家乐官网平注常赢法| 百家乐技巧赚钱| 拜城县| 百家乐里和的作用| 豪门娱乐网| 金城百家乐玩法| 188金宝博备用网址| 送58百家乐官网的玩法技巧和规则| 水果机破解| 鼎丰娱乐城开户| 博狗百家乐开户| 皇冠百家乐| 邯郸百家乐园怎么样| 百家乐官网风云论坛| 太阳城百家乐出千技术| 方山县| 百家乐机器出千| 百家乐官网投注平台信誉排行 | 在线百家乐官网纸牌| 大发888 游戏下载| 一二博国际| 百家乐娱乐城提款| 最新皇冠足球投注比分网| 百家乐有多少网址| 茂名市| 百家乐赌大小| 有百家乐官网的游戏平台| 巴黎人百家乐的玩法技巧和规则| 百家乐官网投注平台信誉排名 | 威尼斯人娱乐场 澳门赌场| 利高百家乐官网的玩法技巧和规则 | 百家乐官网平注法技巧|