那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2024-08-23 15:48 ? 次閱讀

“魔搭社區是中國最具影響力的模型開源社區,致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產業應用效率,更大規模地釋放大模型的應用價值。”

——周文猛,魔搭社區技術負責人,阿里巴巴通義實驗室技術總監

魔搭上線 NVIDIA TensorRT-LLM

支持開源LLM 推理加速

魔搭社區于 2022 年 11 月初創建,首次在業界提出了 “模型即服務” (MaaS, Model as a Service) 的理念。在過去一年半的時間里,MaaS 這一理念不僅實現了技術落地,也被行業廣泛接納,并成為繼 IaaS、PaaS、SaaS 服務的又一新的技術范式。

2023 年 7 月,Meta 宣布開源 Llama 2 模型,改變了整個大語言模型 (LLM) 行業的競爭格局。通過繁榮的開源生態,大語言模型迎來了群策群力的技術迭代和突破。

國內外優秀的大語言模型,如 ChatGLM、零一萬物、書生·浦語系列、通義千問等,都將魔搭社區作為開源模型首發平臺。魔搭社區成為了大模型發展的技術風向標,在中國的開發者群體中,形成了廣泛的 “找模型,用模型,上魔搭社區” 的觀念認同,從而建成了中國最大開源模型社區。

魔搭社區現在上線了 NVIDIA TensorRT-LLM,TensorRT-LLM 提供了易于使用的應用程序編程接口 (API),以定義和運行大語言模型,支持社區上的各類開源大語言模型 (LLM) 的推理加速。開發者僅通過簡短幾行代碼即可將優化的模型部署到 GPU 上。

目前 NVIDIA TensorRT-LLM 在魔搭社區上已支持的模型類型和推理精度,幾乎涵蓋了所有主流的大語言/多模態模型以及常用的量化方法,包括 FP32、FP16、BF16、INT8 和 INT4,適用于不同的環境。

LLM 推理面臨的挑戰

計算資源消耗巨大:開源大語言模型參數規模越來越大,比如 Qwen1.5-110B 參數規模高達千億級,對計算資源的需求龐大。在沒有優化的情況下直接部署,不僅成本高昂,而且對硬件要求高。

推理延遲高:大語言模型的推理時間長,尤其是在實時交互式應用中,如聊天機器人、語音助手等,高延遲會嚴重影響用戶體驗。

能效比低:計算密集型工作流意味著更高的能耗,這對于追求綠色計算和可持續發展的現代數據中心而言是一個重要問題。

部署復雜度高:模型優化、適配不同硬件平臺、以及持續維護升級等都是挑戰,尤其對于非專業用戶來說,部署一個高性能的語言模型服務并不容易。

NVIDIA TensorRT-LLM

如何提升 LLM 推理效率

極致性能優化:NVIDIA TensorRT-LLM 是基于 NVIDIA TensorRT API 生態系統構建的,專為大規模語言模型優化的推理引擎。它利用 GPU 的強大并行計算能力,通過算法優化、層融合、量化等技術顯著減少模型推理所需的計算量和內存占用,從而提升推理速度,降低延遲。

高效率與低功耗:通過精心設計的優化策略,TensorRT-LLM 能夠在不犧牲模型精度的前提下,大幅提高能效比,這對于數據中心的成本控制和環境友好至關重要。

簡化部署流程:提供一鍵式的模型優化與部署工具,簡化了從訓練到推理的整個流程。即便是復雜的模型結構,開發者也能輕松地將其部署到 GPU 上,大大降低了技術門檻,加速了產品上市時間。

廣泛兼容性與可擴展性:支持魔搭社區的多種主流的深度學習框架和開源模型架構,如 Transformer 系列模型。TensorRT-LLM 設計靈活,便于未來適應更多先進的模型技術和算法創新的更新,保持技術領先性。

在 NVIDIA TensorRT-LLM 和NVIDIA Triton 推理服務器的加持下,魔搭社區正在為開發者提供更為全面、高效、快捷的模型推理部署方案。未來,魔搭社區計劃將在生成式 AI 的模型和軟件加速庫層面,與 NVIDIA 相關團隊繼續開展合作,推動大語言模型的廣泛應用和落地。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5076

    瀏覽量

    103712
  • 模型
    +關注

    關注

    1

    文章

    3303

    瀏覽量

    49216
  • LLM
    LLM
    +關注

    關注

    0

    文章

    299

    瀏覽量

    398

原文標題:魔搭社區利用 NVIDIA TensorRT-LLM 加速開源大語言模型推理

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    新品| LLM630 Compute Kit,AI 大語言模型推理開發平臺

    LLM630LLM推理,視覺識別,可開發,靈活擴展···LLM630ComputeKit是一款AI大語言模型推理開發平臺,專為邊緣計算和智能交互應用而設計。該套件的主板搭載愛芯AX63
    的頭像 發表于 01-17 18:48 ?134次閱讀
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大語言模型<b class='flag-5'>推理</b>開發平臺

    京東廣告生成式召回基于 NVIDIA TensorRT-LLM推理加速實踐

    、個性化召回、深度召回等),以召回大量候選商品。隨后,系統通過相對簡單的粗排模型對候選集進行初步篩選,縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結果。 隨著大語言模型(LLM)在推薦系統中的應用,生成
    的頭像 發表于 01-14 15:17 ?146次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術,該技術現在可與 NVIDIA TensorRT-L
    的頭像 發表于 12-25 17:31 ?258次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術,包括自定義 Attention Kernel、Inflight
    的頭像 發表于 12-17 17:47 ?278次閱讀

    NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布!
    的頭像 發表于 11-28 10:43 ?339次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> Roadmap現已在GitHub上公開發布

    什么是LLMLLM在自然語言處理中的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本中的長距
    的頭像 發表于 11-19 15:32 ?939次閱讀

    TensorRT-LLM低精度推理優化

    本文將分享 TensorRT-LLM 中低精度量化內容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發表于 11-19 14:29 ?439次閱讀
    <b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b>優化

    NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列,該系列包含最先進的指導和獎勵模型,以及一個用于生成式 AI 訓練的數據集。
    的頭像 發表于 09-06 14:59 ?382次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型幫助開發者生成合成訓練數據

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理
    的頭像 發表于 07-24 11:38 ?1009次閱讀

    LLM模型的應用領域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM是一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?721次閱讀

    什么是LLMLLM的工作原理和結構

    隨著人工智能技術的飛速發展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領域的研究熱點。LLM以其強大的文本生成、理解和推理能力,在文本
    的頭像 發表于 07-02 11:45 ?8997次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優化從 PC 到云端的
    的頭像 發表于 04-28 10:36 ?634次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)將
    的頭像 發表于 04-20 09:39 ?821次閱讀

    自然語言處理應用LLM推理優化綜述

    當前,業界在將傳統優化技術引入 LLM 推理的同時,同時也在探索從大模型自回歸解碼特點出發,通過調整推理過程和引入新的模型結構來進一步提升推理
    發表于 04-10 11:48 ?683次閱讀
    自然語言處理應用<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>優化綜述

    基于NVIDIA Megatron Core的MOE LLM實現和訓練優化

    本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型(LLM)實現與訓練優化上的創新工作。
    的頭像 發表于 03-22 09:50 ?874次閱讀
    基于<b class='flag-5'>NVIDIA</b> Megatron Core的MOE <b class='flag-5'>LLM</b>實現和訓練優化
    依安县| bet365官方网址| 大发888游戏下载官网免费| 赌博的危害| 新葡京百家乐官网现金网| 百家乐官网娱乐平台网77scs| 百家乐官网刷钱| 阿玛尼百家乐的玩法技巧和规则| 十六浦娱乐| 诸子百家乐官网的玩法技巧和规则 | 赌博中百家乐官网什么意思| 注册百家乐送彩金 | 百家乐路的看法| 天堂鸟百家乐的玩法技巧和规则| 民权县| 24山向是什么| 百家乐游戏接口| 大发888 娱乐场| 百家乐官网论坛百科| 沙龙百家乐官网娱乐城| 7人百家乐桌布| 德州扑克战术与策略分析| 百家乐官网信誉平台现金投注| 百家乐趋势方向| bet365怎么上不去| 百家乐官网六合彩| 百家乐规则以及玩法| bet9全讯网查询| 百家乐官网赢钱秘籍鹰| 真人百家乐网络游戏信誉怎么样| 赌博投注| 百家乐官网下载| 大发888游戏出纳| 海立方百家乐官网客户端| 百家乐投注之对冲投注| 彭州市| 24山向中那个向最好| 德州扑克书| 网络百家乐官网玩法| 威尼斯人娱乐开户送18| 百家乐官网视频游戏双扣|