那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何使用多模態信息做prompt

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:子龍 ? 2021-11-03 09:39 ? 次閱讀

自多模態大火以來,井噴式地出現了許多工作,通過改造預訓練語言模型,用圖像信息來增強語義信息,但主要集中在幾個 NLU 任務上,在 NLG 上的研究比較少。

今天要介紹的這篇 paper Multimodal Conditionality for Natural Language Generation 研究的任務場景則是以多模態信息作為條件做 conditional 的 NLG任務。這種任務設置有許多實際的應用場景。比如,生成商品介紹文案時,僅僅基于該商品的文字標題是不夠的。如果能結合商品的圖片,必然能夠得到更貼切的文案。

這篇工作的模型基于 GPT2,而多模態信息則是以一種類似 prompt 的方式來使用。雖然方法比較簡單直觀,但具備一定通用性,未來或許有進一步挖掘的可能。

論文題目:

Multimodal Conditionality for Natural Language Generation

論文鏈接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其實十分簡單,一切語言模型都是為了衡量一段文字序列的概率,即:

而如果引入了多模態的輸入,就相當于在生成時多了一個條件,即條件概率為:

其中為多模態輸入序列。

以文中生成商品文案的運用場景為例。

這里的Product Title和Product Images就是作為生成Product Description時的“條件”。

那么如何將多模態序列引入到自然語言生成模型呢?

本文使用了一個十分直觀的方法,稱作MANTIS,將作為條件的多模態序列作為前綴放置到decoder輸入序列的前面,進而中解碼過程中分享多模態信息。其中圖片輸入借助ResNet-152,將最后一層輸出用線性層映射到語言模型同一個空間中。而作為條件的文本輸入,即這里的product title,和生成序列一同進行編碼。

效果數據集采用FACAD,提供了商品的標題和圖片,目標是生成產品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指標中都取得了最優結果,相比于baseline,將BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同時,由于衡量生成文本質量具有主觀性,作者也進行了人工評分,結果表明MANTIS依然取得了最優結果。

從生成效果來看,生成的描述成功地結合了圖片信息,使得描述更加準確,而非籠統的介紹。

總結這篇文章方法十分直觀,但是結合最近火熱的 Prompt,似乎又有了更多的啟發。同樣是生成,同樣是加前綴,似乎給定條件的生成就是加上編碼好的前綴?那么多模態未來能不能成為一種新的prompt呢?作者認為他們的模型可以借助各種不同的多模態條件生成,然而不得不說本文的方法對模態融合的部分做的馬虎了些。本文只是單純借助解碼器進行融合,并沒有在編碼階段就分享跨模態的信息。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 信息
    +關注

    關注

    0

    文章

    407

    瀏覽量

    35594
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49233

原文標題:用多模態信息做 prompt,解鎖 GPT 新玩法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2025年Next Token Prediction范式會統一模態

    訓練方法與推理策略 性能評測體系 現存挑戰與未來方向 綜述的完整目錄如下: 模態的 Tokenization 我們認為模態的 Tokenization 是 MMNTP 的基石和最重
    的頭像 發表于 01-21 10:11 ?70次閱讀
    2025年Next Token Prediction范式會統一<b class='flag-5'>多</b><b class='flag-5'>模態</b>嗎

    體驗MiniCPM-V 2.6 模態能力

    模態組網
    jf_23871869
    發布于 :2025年01月20日 13:40:48

    商湯日日新模態大模型權威評測第一

    剛剛,商湯科技日日新SenseNova模態大模型,在權威綜合評測權威平臺OpenCompass的模態評測中取得榜單第一。
    的頭像 發表于 12-20 10:39 ?353次閱讀

    一文理解模態大語言模型——下

    /understanding-multimodal-llms ? 《一文理解模態大語言模型 - 上》介紹了什么是模態大語言模型,以及構建
    的頭像 發表于 12-03 15:18 ?203次閱讀
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模態</b>大語言模型——下

    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造模態影像融合系統

    模態影像融合超聲系統的市場規模也在不斷擴大,國內眾多超聲系統廠家也在不斷尋找合適的硬件平臺,用以承載旗下的模態影像融合超聲系統。
    的頭像 發表于 11-11 10:52 ?719次閱讀
    超聲界“內卷終結者”!ZRT智銳通提供全新引擎打造<b class='flag-5'>多</b><b class='flag-5'>模態</b>影像融合系統

    AI對話魔法 Prompt Engineering 探索指南

    作者:京東物流 李雪婷 一、什么是 Prompt Engineering? 想象一下,你在和一個智能助手聊天,你需要說出非常清晰和具體的要求,才能得到你想要的答案。Prompt
    的頭像 發表于 11-07 10:11 ?918次閱讀
    AI對話魔法 <b class='flag-5'>Prompt</b> Engineering 探索指南

    利用OpenVINO部署Qwen2模態模型

    模態大模型的核心思想是將不同媒體數據(如文本、圖像、音頻和視頻等)進行融合,通過學習不同模態之間的關聯,實現更加智能化的信息處理。簡單來說,
    的頭像 發表于 10-18 09:39 ?553次閱讀

    云知聲山海模態大模型UniGPT-mMed登頂MMMU測評榜首

    近日,模態人工智能模型基準評測集MMMU更新榜單,云知聲山海模態大模型UniGPT-mMed以通用能力、醫療專業能力雙雙排名第一的優異成績登頂榜首,力壓GPT-4V,充分彰顯其硬核
    的頭像 發表于 10-12 14:09 ?340次閱讀
    云知聲山海<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型UniGPT-mMed登頂MMMU測評榜首

    Meta發布模態LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一項重要技術突破,成功推出了模態LLAMA 3.2人工智能模型。這一創新模型不僅能夠深度解析文本信息,還實現了對圖像內容的精準理解,標志著Meta在AI
    的頭像 發表于 09-27 11:44 ?454次閱讀

    云知聲推出山海模態大模型

    在人工智能技術的浩瀚星海中,模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,云知聲以創新之姿,推出了其匠心獨運的山海模態大模型,正式宣告“Her時代
    的頭像 發表于 08-27 15:20 ?436次閱讀

    Build 2024發布多項Azure AI Speech全新模態功能

    客戶們持續使用 Azure OpenAI 和 Azure AI Speech 進行創新,為企業引入新的效率,并構建新的模態體驗。
    的頭像 發表于 05-28 09:08 ?636次閱讀
    Build 2024發布多項Azure AI Speech全新<b class='flag-5'>多</b><b class='flag-5'>模態</b>功能

    李未可科技正式推出WAKE-AI模態AI大模型

    李未可科技模態 AI 大模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式AI大會上李未可科技正式發布為眼鏡等未來終端定向優化等自研WAKE-AI模態
    發表于 04-18 17:01 ?661次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型

    AI機器人迎來模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的模態信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?310次閱讀

    谷歌推出模態VLOGGER AI

    谷歌最新推出的VLOGGER AI技術引起了廣泛關注,這項創新的模態模型能夠讓靜態肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內容,VLOGGER AI就能讓圖片中的人物仿佛真的在朗讀這段音頻,面部表情豐富,栩栩如生。
    的頭像 發表于 03-22 10:45 ?906次閱讀

    螞蟻集團推出20億參數模態遙感基礎模型SkySense

    近日,螞蟻集團聯合武漢大學宣布成功研發出20億參數模態遙感基礎模型SkySense。這一創新模型由螞蟻集團的AI創新研發部門NextEvo與武漢大學共同完成,是迄今為止國際上參數規模最大、覆蓋任務最全、識別精度最高的
    的頭像 發表于 03-04 11:22 ?888次閱讀
    网络百家乐娱乐| 博久百家乐官网论坛| 百家乐官网辅助分析软件| 百家乐官网的看路技巧| 百家乐娱乐皇冠世界杯| 广州百家乐赌场娱乐网规则| 大发888娱乐城好吗| 百家乐官网赢钱海立方| 百家乐官网小游戏单机版| 同花顺百家乐的玩法技巧和规则| 棋牌游戏平台有哪些| 大发888大法8668| 大发888娱乐城在线| 百家乐官网赌博怎么玩| 百家乐官网群shozo权威| 百家乐追号工具| 百家乐官网补牌规制| 太阳百家乐官网开户| 全讯网3344111.com| 菲律宾百家乐官网试玩| 新濠百家乐现金网| 大发888 真钱娱乐场| 新竹市| 乐宝百家乐官网的玩法技巧和规则| 玩百家乐免费| 固镇县| 百家乐的连庄连闲| 888真人| 24山入门| 娱乐城注册送18| 百家乐官网稳赢秘诀教学| 百家乐直杀| 青鹏棋牌游戏下载| 百家乐官网官网7scs| 路劲太阳城样板间| 百家乐官网云顶| 太阳城申博娱乐| 网上百家乐官网娱乐平台| 二八杠算法| 百家乐官网单注打| 大发娱乐场下载|