富豪娱乐城时时彩,淘金盈娱乐场官网要怎么才能赚钱,博彩网站黑庄(中国)·官方网站

作者：京東零售陳航

0000 生成式推薦系統優勢介紹

推薦系統的主要任務是根據用戶的歷史行為預測其興趣點，并向其推薦相應的商品。傳統的推薦系統在處理用戶請求時，會觸發多個召回模塊（包括熱門商品召回、個性化召回、深度召回等），以召回大量候選商品。隨后，系統通過相對簡單的粗排模型對候選集進行初步篩選，縮小候選范圍，最后通過精排和重排模型，確定最終返回給用戶的推薦結果。

隨著大語言模型（LLM）在推薦系統中的應用，生成式推薦系統相比傳統推薦系統展現出以下優勢：

1）簡化推薦流程：生成式推薦系統實現了從多級過濾的判別式（discriminative-based）架構向單級過濾的生成式（generative-based）架構的轉變。通過直接生成推薦結果，簡化了推薦流程，降低了系統復雜度。

2）知識融合：LLM 具有更強的泛化能力和穩定性。利用 LLM 所包含的世界知識和推理能力，可以突破傳統電子商務平臺在商品和用戶建模中存在的數據局限性。在新用戶和新商品的冷啟動以及新領域的推薦場景中，生成式推薦系統能夠提供更優的推薦效果和更好的遷移性能。

3）規模定律（Scaling Law）：傳統的點擊率（CTR）稀疏模型在模型規模擴大時，邊際收益遞減現象明顯。而 LLM 所表現出的規模定律屬性，為模型的有效擴展提供了一種新模式，即模型性能隨著規模的增加而持續提升。這意味著通過擴大模型規模，可以獲得更好的推薦效果，突破傳統模型的性能瓶頸。

0001 生成式召回方案介紹

1、生成式召回算法與實現簡介

生成式推薦涉及兩個接地（grounding）過程：一是建立商品與自然語言的連接。二是建立用戶行為與目標商品之間的連接。為實現這兩個過程，我們需要以下幾步：

1）商品表示：在實際操作中，直接生成文檔或商品描述幾乎是不可行的。因此，我們采用短文本序列，即語義 ID，來表征商品。選取高點擊商品的標題、類目等語義信息，經由編碼器模型獲得向量表示，再利用 RQ-VAE 對向量進行殘差量化，從而獲得商品的語義 ID。例如，商品：“XXX品牌 14+ 2024 14.5 英寸輕薄本 AI 全能本高性能獨顯商務辦公筆記本電腦” 可表示為：。

2）用戶畫像&行為建模：通過構建提示詞來定義任務，并將用戶相關信息（例如用戶畫像和用戶歷史行為數據）轉化為文本序列。例如：“用戶按時間順序點擊過這些商品：,, 你預測用戶下一個可能點擊的商品是？ ”。

3）模型訓練：確定了生成模型的輸入（用戶表示）和輸出（商品物料標識符），即可基于生成式 Next Token Prediction 任務進行模型訓練。

4）模型推理：經過訓練后，生成模型能夠接收用戶信息并預測相應的商品語義 ID，這些語義標識可以對應數據集中的實際商品 ID。

(了解詳細算法方案請參考：生成式推薦系統與京東聯盟廣告-綜述與應用。 )

2、LLM 模型部署的工程適配

傳統基于深度學習的召回模型，其參數量通常在幾十萬到幾千萬之間，且模型結構以Embedding層為主。而采用大語言模型（LLM）實現的生成式召回模型，其參數規模大幅提升至0.5B至7B之間，模型結構主要由Dense網絡構成。由于參數量的急劇增加，LLM在推理過程中所需的計算資源相比傳統模型顯著提升，通常高出數十倍甚至上百倍。這使得LLM在處理復雜任務時具備更強的表現力，但同時也對計算能力有了更高的要求。

將如此龐大的算力模型部署至線上環境，并確保其滿足毫秒級實時響應的需求，同時在嚴格控制資源成本的前提下實現工業化應用，這無疑是對工程能力的巨大考驗。因此，我們必須對在線推理架構進行極致的性能優化。

3、基于 TensorRT-LLM 的 LLM 構建優化及其系統部署

· 在建模封裝層，通過 TensorRT-LLM 實現 LLM 模型的構建與優化。然后將 LLM 無縫整合至現有生態系統，利用 Python 與 TensorFlow API 實現端到端推理圖的構建。基于 TensorFlow 原生算子及現有業務的自定義 TensorFlow 算子庫（例如用戶行為特征處理算子），實現算法的靈活建模。

· 在推理優化層，通過應用 Inflight Batching、Constrained Sampling、Flash Attention 及 Paged Attention 等加速方案，最大限度地提升單卡吞吐量并降低推理延遲。

· 在系統部署方面，為了最大化利用時間資源，生成式召回的部署采用了與傳統多分支召回模塊并行的方式。由于生成式召回簡化了推理流程，相較于傳統召回方式，其資源消耗更少，運行時間更短，并且取得了優異的召回效果。

4、生成式召回在推薦及搜索場景應用效果

目前，生成式召回已在京東廣告推薦場景及搜索場景等業務線成功實施。在推薦場景，借助生成式模型的參數規模及語義理解優勢，AB 實驗結果顯示商品點擊率與消費帶來了顯著的提升。在搜索場景，通過 LLM 所具備的語義理解能力，顯著提升了對查詢與商品的認知能力，特別是在處理搜索中的長尾查詢時，填充率有明顯提升，AB 實驗同樣取得了點擊率與消費幾個點的收益增長。

0010 推理優化加速: 實現降低延遲、提升吞吐

在線推理基于Nvidia TensorRT-LLM, 通過使用 TensorRT-LLM 中的多種優化特性，并針對廣告生成式召回業務場景進行深度定制優化后, 不僅模型推理延遲達到線上業務要求, 同時吞吐也有著顯著提升。

在 NVIDIA GPU 上進行的測試中，通過對比 TensorRT-LLM 與基線，發現在限制 100 毫秒推理耗時的廣告場景下，采用 TensorRT-LLM 進行推理，疊加針對業務的定制優化后，其吞吐量相較于 baseline提升了五倍以上。這相當于將部署成本降至原來的五分之一。

對于這個特定的應用場景，beam width 的合理配置對檢索結果有著重要影響。一般來說，較高的 beam width 能夠增加候選商品的數量，從而提高檢索的準確性。以返回 300 個商品為例，若 beam width 設置較低，每個 code 就需要對應更多的商品 id，這無疑會降低檢索的精度。

針對這個情況，一方面我們與NVIDIA DevTech 技術團隊合作進行了有針對性的二次開發和優化工作，另一方面，結合生成式召回的業務場景，研發定制高性能GPU算子，大幅提升推理效率，最終讓 TensorRT-LLM 支持更大范圍的 beam width, 從而及時滿足了線上的業務需求。

0011 持續優化以實現模型效率效果提升

未來, 我們將持續在生成式推薦領域深入探索, 重點聚焦以下幾個方面

1）提升模型規模，滿足實時推理需求

當前，受制于算力、時間消耗和成本等客觀條件，生成式推薦系統在實時推理中的可部署模型規模相對較小（約 0.5B 至 6B 參數）。然而，離線實驗數據表明，擴大模型規模能夠顯著提升線上推薦效果。這對在線性能優化提出了更高要求。為了在不顯著增加成本的前提下支持更大規模的模型在線部署，需要進一步優化模型結構和推理效率。例如，采用模型剪枝、量化等模型壓縮技術，優化采樣檢索算法效率，以及高效的分布式推理架構。

2）擴展用戶行為輸入，提高模型效果

實驗證明，輸入更長的用戶歷史行為序列可以提升模型的推薦效果。然而，更長的序列輸入會導致計算資源消耗的增加和推理時間的延長。為此，需要尋求在效果提升和性能開銷之間的平衡。對應的優化方案包括：

a. Token 序列壓縮：通過對輸入序列進行壓縮，如去除冗余信息、合并相似行為等，減少序列長度的同時保留關鍵信息。

b. 用戶行為 KV 緩存復用：在推理過程中，針對用戶行為特征有序遞增的特點，對長期行為進行離線計算并進行緩存，在線部分負責計算實時行為，避免重復計算的同時最大化利用算力，提高推理效率。

3）融合稀疏與稠密模型，實現聯合推理

隨著模型參數量的增大，可以考慮將稀疏的傳統 CTR 模型與稠密的 LLM 模型進行聯合推理。稀疏模型擅長處理高維度的稀疏特征，具有計算效率高的優勢；而稠密模型能夠捕獲復雜的非線性特征和深層次的語義信息。通過融合兩者的優勢，構建一個兼具高效性和精確性的推薦系統。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

NVIDIA

NVIDIA

+關注

關注
14

文章
5076

瀏覽量
103714
LLM

LLM

+關注

關注
0

文章
299

瀏覽量
398

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發并開源的一種新型推測解碼技術，該技術現在可與 NVIDIA TensorRT-L

發表于 12-25 17:31 ?258次閱讀

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優化技術，包括自定義 Attention Kernel、Inflight

發表于 12-17 17:47 ?278次閱讀

NVIDIA TensorRT-LLM Roadmap現已在GitHub上公開發布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現已在 GitHub 上公開發布！

發表于 11-28 10:43 ?339次閱讀

NVIDIA助力Amdocs打造生成式AI智能體

正在使用NVIDIA DGX Cloud 與 NVIDIA AI Enterprise軟件開發和交付基于商用大語言模型（LLM）和領域適配模型的解決方案。該公司還在使用NVIDIA

發表于 11-19 14:48 ?418次閱讀

TensorRT-LLM低精度推理優化

本文將分享 TensorRT-LLM 中低精度量化內容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA TensorRT Model

發表于 11-19 14:29 ?439次閱讀

NVIDIA在加速計算和生成式AI領域的創新

在最新發布的公司 2024 財年可持續發展報告開篇的一封信中，NVIDIA 創始人兼首席執行官黃仁勛介紹了 NVIDIA 在加速計算和生成式

發表于 09-09 09:18 ?648次閱讀

NVIDIA Nemotron-4 340B模型幫助開發者生成合成訓練數據

Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優化的模型系列，該系列包含最先進的指導和獎勵模型，以及一個用于生成

發表于 09-06 14:59 ?382次閱讀

三行代碼完成生成式AI部署

LLM加載與推理部署能力，實現了OpenVINO對CNN網絡、生成式模型、LLM網絡主流模型的全面推理

發表于 08-30 16:49 ?465次閱讀

魔搭社區借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區是中國最具影響力的模型開源社區，致力給開發者提供模型即服務的體驗。魔搭社區利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應用部署，提高了大模型產業應用效率，更大規模地釋放大模型的

發表于 08-23 15:48 ?509次閱讀

LLM大模型推理加速的關鍵技術

LLM（大型語言模型）大模型推理加速是當前人工智能領域的一個研究熱點，旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理

發表于 07-24 11:38 ?1009次閱讀

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革

簡化 AI 創造價值的過程，加速生成式 AI 的發展步伐。 NVIDIA AI Computing by HPE 由 HPE 與 NVIDIA

發表于 06-20 17:36 ?782次閱讀

生成式推薦系統與京東聯盟廣告-綜述與應用

的日常生活，如何用LLM有效重塑RS是一個有前景的研究問題[20, 25]。這篇文章從生成式推薦系統與京東聯盟廣告各自的背景出發，引出二者

發表于 06-13 15:41 ?473次閱讀

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM

發表于 04-28 10:36 ?634次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結合 NVIDIA TensorRT 和 NVIDIA Merlin Hierarc

發表于 04-20 09:39 ?821次閱讀

使用NVIDIA Triton推理服務器來加速AI預測

這家云計算巨頭的計算機視覺和數據科學服務使用 NVIDIA Triton 推理服務器來加速 AI 預測。

發表于 02-29 14:04 ?632次閱讀