那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Amdocs使用NVIDIA NIM加速生成式AI性能并降低成本

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA ? 2024-05-24 10:56 ? 次閱讀

電信公司正在利用生成式 AI,通過自動化流程、改善客戶體驗和優化網絡運營來提高員工生產力。

Amdocs 是一家領先的通信和媒體公司軟件和服務提供商,打造了一個電信專用生成式 AI 平臺——amAIz,為電信公司提供了一個開放、安全、經濟高效且跨大語言模型(LLM)的框架。Amdocs 正在利用 NVIDIA DGX CloudNVIDIA AI Enterprise 軟件,提供基于商用 LLM 的解決方案,以及適用于特定領域的模型,使服務提供商能夠構建和部署企業級生成式 AI 應用程序。

Amdocs 也在使用 NVIDIA NIM,這是一組易于使用的推理微服務,旨在加速生成式 AI 在企業中的大規模部署。該多功能微服務支持來自開放社區的模型和 NVIDIA API 產品目錄中的 NVIDIA AI Foundation 模型,以及自定義 AI 模型。NIM 旨在推動高吞吐量、低延遲的無縫 AI 推理,同時保持預測的高準確性。

客戶計費用例

電信公司的聯絡中心會收到大量客戶的計費查詢電話。他們向客服尋求解釋,因為各種操作可能會影響他們的賬單,包括客戶的移動計劃、促銷期結束或意外收費。

Amdocs 正在開發一種基于 LLM 的解決方案,該解決方案通過對賬單問題提供即時準確的解釋來幫助客戶。該解決方案旨在減少客服代理的工作量,使他們能夠專注于更復雜的任務。

圖 1 顯示了從數據收集和準備到 LLM 微調,再到評估的總體流程。

a454eb56-18e3-11ef-b74b-92fbcf53809c.png

圖 1. 從數據收集和準備到 LLM 微調和評估的整體流程

數據收集和準備

為了解決這個問題,他們從匿名的通話記錄和賬單中創建了一個新的數據集,由電信客服專家標記。該數據集包含數百個注釋問題和答案,這些問題和答案被分類到相關場景中。大部分數據用于微調,性能在一個小測試集(幾十個樣本)上報告。

表 1 顯示了所收集數據的一個示例。該問題與計費更改有關,注釋的答案基于客戶歷史賬單。

a476ab38-18e3-11ef-b74b-92fbcf53809c.png

表 1. 移動計劃促銷到期場景中收集的數據示例

在這個過程中,Amdocs 使用 OpenAI GPT-4 LLM 這一工具來過濾通話記錄并將其分類到不同場景中。然后,LLM 被用于生成潛在的問答對,這些問答對被領域專家重新訪問和標記。

數據格式和提示工程

作為基線,Amdocs 使用 Llama2-7b-chat、Llama2-13b-chat 和 Mixtral-8x7b LLM 來增強具有意向分類和賬單問答功能的客戶服務聊天機器人。Amdocs 設計了帶有指令的提示,其中包括目標賬單(原始 XML 格式的連續一到兩個計費月)及其相關問題。

使用基準 LLM 和零樣本或少樣本推理的初始實驗表現不佳,主要是由于從客戶賬單中提取相關信息的復雜性。此外,原始 XML 格式需要詳細說明 LLM 的計費格式。因此,由于某些 LLM(例如,Llama2 的 4K tokens)的最大上下文長度的限制,Amdocs 在將賬單和指令納入提示中時面臨挑戰。

為了適應上下文窗口,Amdocs 的第一項工作是簡化提示中的計費格式說明。圖 2 顯示了使用 Llama2 標記器(tokenizer),重新格式化后的 token 平均數量從 3909 個減少到 1153 個。

a4964420-18e3-11ef-b74b-92fbcf53809c.jpg

圖 2. 使用新計費格式減少的 token 數量

NVIDIA DGX Cloud 上的 LLM 微調

由于注釋數據量有限,Amdocs 探索了參數高效微調(PEFT)方法,如低秩自適應(LoRA)。他們用兩種基礎 LLM 架構(Llama2 和 Mixtral)進行了幾次微調實驗,研究了一到兩個時期的幾個 LoRA 超參數。

Amdocs 的實驗是在 NVIDIA DGX Cloud 上進行的,這是一個面向開發者的端到端 AI 平臺,提供基于最新 NVIDIA 架構的可擴展能力,并與世界領先的云服務提供商共同設計。Amdocs 使用的 NVIDIA DGX Cloud 實例包含以下組件:

8 個 NVIDIA 80GB Tensor Core GPU

88 個 CPU 核心

1TB 系統內存

在多 GPU 環境下執行微調周期,每個周期不到一個小時。

使用 NVIDIA NIM 部署 LLM

NVIDIA NIM 基于NVIDIA Triton推理服務器所構建,采用 TensorRT-LLM 對 NVIDIA GPU 上的 LLM 推理進行優化。NIM 通過預先優化的推理容器來推動無縫的 AI 推理,這些容器開箱即用,在加速的基礎設施上提供極佳的延遲和吞吐量,同時確保預測的準確性。無論是在本地還是在云中,NIM 都提供了以下優勢:

簡化 AI 應用程序開發

為最新的生成式 AI 模型預先配置的容器

通過服務級別協議提供企業支持,并定期更新 CVE 的安全性

支持最新的社區前沿的 LLM

成本效益和性能

對于該應用程序,Amdocs 使用自托管的 NVIDIA NIM 實例來部署經過微調的 LLM。他們公開了類似 OpenAI 的 API 端點,為他們的客戶端應用程序啟用了統一的解決方案,該解決方案使用 LangChain 的 ChatOpenAI 客戶端。

在微調探索過程中,Amdocs 創建了一個流程,通過 NIM 自動部署 LoRA 微調檢查點。對于微調后的 Mixtral-8x7B 模型,該過程花費了大約 20 分鐘。

結果

Amdocs 已經看到了這一過程的多重效率。

準確性提高:通過與 NVIDIA 合作,顯著提高了 AI 生成響應的準確性,準確性提高了 30%。這類改進對于加快推動生成式 AI 在電信行業的廣泛應用和滿足面向消費者的生成式 AI 服務的需求至關重要。

使用 NVIDIA NIM,Amdocs 在成本和延遲方面都有所改進。

運營成本降低:Amdocs 在 NVIDIA 基礎設施上的電信檢索增強生成(RAG)使部署用例所消耗的 token 在數據預處理和推理方面分別降低了 60% 和 40%,以更低的成本提供相同水平的準確性。

延遲降低:該協作成功地將查詢延遲減少了約 80%,從而確保最終用戶體驗到近乎實時的響應速度。這項加速提升了用戶在商業、醫療、運營等領域的體驗。

LLM 準確性評估

為了在微調階段評估測試數據集上跨模型和提示的性能,Amdocs 使用了圖 3 中的高級流程。

a4c990c8-18e3-11ef-b74b-92fbcf53809c.png

圖 3. 包括 LLM-as-a-Judge 和人類專家在內的 LLM 評估過程

對于每個實驗,Amdocs 首先在測試數據集上生成 LLM 輸出預測。

然后,使用外部 LLM-as-a-Juage 來評估預測,提供準確性和相關性的指標。對符合預定義標準的實驗進行自動回歸測試,以驗證預測細節的準確性。由此得出的分數是多種指標的混合,包括以下:

F1 分數

無幻覺指示器

準確結論指示器

回答相關性

對話一致性

無回退指示器

完整性

毒性指標

最后,手動評估性能最佳的模型,以確認總體準確性。這一過程確保了微調后的 LLM 既有效又可靠。

圖 4 顯示了不同 LLM 的總體準確度得分。Amdocs 觀察到,與基礎版本相比,Mixtral-8x7B 和 Llama2-13b-cat 的 LoRA 微調版本的準確率分別提高了 20-30%。結果還顯示,與托管 LLM 服務相比,準確率提高了 6%。

a4e68868-18e3-11ef-b74b-92fbcf53809c.png

圖 4. 前三名模型的平均得分提升情況

Token 消耗

重新格式化計費數據導致輸入 token 減少了 60%。雖然經過微調的 LLM 產生了相當或更好的性能,但這些模型也使輸入 token 額外節省了約 40%。這歸因于最小化提示指令的域自定義。

圖 5 顯示了 Mixtral-8x7B、Llama2-13b 和托管 LLM 服務的 token 消耗之間的比較。輸入 token 數量的差異主要是由于托管 LLM 服務為很好地執行任務中所需的詳細指令。對于域定制的 Llama2 和 Mixtral-8x7B 模型,減少是由于持續的上下文格式改進。

a4f6d736-18e3-11ef-b74b-92fbcf53809c.png

圖 5. Mixtral-8x7B、Llama2 和托管 LLM 服務的標記消耗情況

LLM 延遲

在使用 NVIDIA NIM 對 NVIDIA 80GB GPU 上部署的模型進行評估期間,Amdocs 觀察到平均推理速度比先進的托管 LLM 服務快 4-6 倍,約 80%。

圖 6 顯示了使用單個 LLM 調用執行的延遲實驗,并計算了整個生成周期的平均延遲。Llama2-13b 模型部署在一個 GPU 上,而 Mixtral-8x7B 部署在兩個 GPU 上。當使用自托管端點時,響應延遲更加一致,如圖 6 所示的 0.95 置信區間線所示。

a531c300-18e3-11ef-b74b-92fbcf53809c.png

圖 6.每個模型的平均延遲(以秒為單位)

結論和下一步行動

NVIDIA NIM 推理微服務改善了延遲,使 Amdocs 應用程序中的處理速度更快。通過優化數據格式和微調 LLM,Amdocs 提高了其計費問答系統的準確性,同時顯著降低了成本。在整個過程中,Amdocs 面臨著不同的挑戰,需要創造性的數據格式化、及時的工程設計和模型相關的定制。定義一個明確的模型評估策略和嚴格的測試是他們成功的關鍵。

Amdocs 正在采取下一步行動,通過使用 Multi-LoRA 為不同的應用程序創建定制模型,這是一種能夠在推理過程中動態加載多個模型自適應的技術。這種方法優化了內存使用,因為只有基本模型是一致加載的,而模型層自適應是根據需要動態加載的。

通過與 NVIDIA 合作,Amdocs 啟動了將生成式 AI 集成到其核心產品組合中的戰略。該戰略從確定應用領域開始,通過用戶體驗設計使生成式 AI 的功能對用戶更加友好,并優先處理快速工程。Amdocs 將繼續使用 NVIDIA DGX Cloud 和 NVIDIA AI Enterprise 軟件,以電信公司分類法定制大語言模型(LLM), 以進一步提高準確性并優化生成式 AI 訓練和推理的成本。

Amdocs 計劃在多個戰略方向上繼續將生成式 AI 集成到 amAIz 平臺中。

使用 AI 驅動的語言和情感分析增強客戶查詢路由

增強其 AI 解決方案的推理能力,以提供針對客戶特定需求的建議

解決需要廣泛的領域知識、多模式和多步驟解決方案的復雜場景,如網絡診斷和優化

這些戰略將使運營和創新更加高效和有效。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5076

    瀏覽量

    103712
  • OpenAI
    +關注

    關注

    9

    文章

    1126

    瀏覽量

    6694
  • 生成式AI
    +關注

    關注

    0

    文章

    514

    瀏覽量

    547

原文標題:Amdocs 使用 NVIDIA NIM 加速生成式 AI 性能并降低成本

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電機企業降低成本的誤區

    從去年開始,由于去產能、環保督查等因素引起電機原材料大幅漲價,從而導致生產成本推高,很多企業在不斷尋求降低成本的途徑。然而,也有不少企業在降成本的過程中走入了誤區!企業衡量成本優勢的原
    發表于 10-11 10:20

    PADS中的ECAD/MCAD高效協作如何降低成本

    了解 PADS 如何支持電氣和機械 CAD 設計人員動態協作,從而加快產品面市降低成本
    的頭像 發表于 05-17 06:24 ?3193次閱讀
    PADS中的ECAD/MCAD高效協作如何<b class='flag-5'>降低成本</b>

    智慧醫療可以更好地利用大數據 改善醫療服務降低成本

    隨著醫療保健技術的進步,消費者在健康方面的參與度和意識不斷增強,智慧醫療行業隨之崛起。智慧醫療可以更好地利用大數據,改善醫療服務降低成本
    發表于 03-15 16:50 ?2479次閱讀

    AN-0972:AD7329如何幫助降低成本

    AN-0972:AD7329如何幫助降低成本
    發表于 04-25 09:17 ?4次下載
    AN-0972:AD7329如何幫助<b class='flag-5'>降低成本</b>

    利用可靠隔離技術縮小尺寸降低成本

    本文介紹如何利用全新隔離技術來保證這些高電壓系統的安全,從而提高可靠性,同時縮小解決方案尺寸降低成本
    發表于 12-22 14:38 ?401次閱讀
    利用可靠隔離技術縮小尺寸<b class='flag-5'>并</b><b class='flag-5'>降低成本</b>

    電路板pcb打樣降低成本的方法

    電路板pcb打樣降低成本的方法
    的頭像 發表于 12-13 17:25 ?895次閱讀

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1
    的頭像 發表于 07-25 09:48 ?790次閱讀

    全新NVIDIA NIM微服務將生成AI引入數字環境

    生成物理 AI NIM 微服務以及 NVIDIA Metropolis 參考工作流旨在協助創建智能的沉浸
    的頭像 發表于 08-02 15:20 ?617次閱讀

    CC2340系統降低成本的方案剖析

    電子發燒友網站提供《CC2340系統降低成本的方案剖析.pdf》資料免費下載
    發表于 08-27 09:43 ?0次下載
    CC2340系統<b class='flag-5'>降低成本</b>的方案剖析

    NVIDIA加速計算和生成AI領域的創新

    在最新發布的公司 2024 財年可持續發展報告開篇的一封信中,NVIDIA 創始人兼首席執行官黃仁勛介紹了 NVIDIA加速計算和生成
    的頭像 發表于 09-09 09:18 ?648次閱讀

    降低成本城域網

    電子發燒友網站提供《降低成本城域網.pdf》資料免費下載
    發表于 10-12 11:46 ?0次下載
    <b class='flag-5'>降低成本</b>城域網

    中國AI企業創新降低成本打造競爭力模型

    在中國,面對美國實施的芯片限制以及相較于西方企業更為有限的預算,人工智能(AI)公司正積極尋求降低成本的方法,以開發出具有市場競爭力的模型。初創公司如01.ai(零一萬物)和DeepSeek(深度求索)等,通過聚焦小數據集進行
    的頭像 發表于 10-22 14:56 ?566次閱讀

    NVIDIA助力Amdocs打造生成AI智能體

    正在使用NVIDIA DGX Cloud 與 NVIDIA AI Enterprise軟件開發和交付基于商用大語言模型(LLM)和領域適配模型的解決方案。該公司還在使用NVIDIA
    的頭像 發表于 11-19 14:48 ?418次閱讀

    租用站群服務器時如何降低成本?

    在租用站群服務器時,降低成本是許多站群管理者關注的重要問題。主機推薦小編為您整理發布租用站群服務器時如何降低成本,以下是一些實用的策略和建議,有助于在保持性能的同時降低租用
    的頭像 發表于 01-22 10:45 ?81次閱讀

    NVIDIA 發布保障代理式 AI 應用安全的 NIM 微服務

    務是 NVIDIA NeMo Guardrails 軟件工具系列的一部分。這些可移植且經過優化的推理微服務可幫助企業提高生成 AI 應用的安全性、精準性
    發表于 01-17 16:29 ?70次閱讀
    百家乐官网天下第一缆| 一起游乐棋牌下载| 百家乐投注平台| 博E百百家乐官网现金网| 大发888bet娱乐城| 新葡京百家乐娱乐城| 在线赌博网站| 永利博百家乐的玩法技巧和规则 | 皇冠足球即时比分| 五张百家乐的玩法技巧和规则| 免费百家乐官网追号| 百家乐官网网上投注系统| 鸿博娱乐| 百家乐有诈吗| 做生意佩戴什么纳财| 新朝代百家乐官网开户网站| 长乐市| 大发888游乐场下载| 真人百家乐博弈| 百家乐视频大厅| 百家乐官网好津乐汇| 九州百家乐官网娱乐城| 百乐彩| 百家乐真人真钱| 百家乐官网双龙出| 百家乐官网平台那家好| 娱乐城开户送体验金| 大发888游戏场下载| 巨星百家乐的玩法技巧和规则| 澳门百家乐小游戏| 百家乐官网玩法官网| 太阳城网上投注| 大发888游戏平台电子| 微信百家乐群二维码| 永利百家乐娱乐平台| 澳门百家乐赢钱秘诀| 澳门玩百家乐官网00| 百家乐官网路珠价格| 澳门百家乐官网视频| 百家乐官网稳定打法| 夹江县|