那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT-4 的模型結構和訓練方法

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-22 15:21 ? 次閱讀

在 GPT-4 的發布報道上,GPT-4 的多模態能力讓人印象深刻,它可以理解圖片內容給出圖片描述,甚至能在圖片內容的基礎上理解其中的隱喻或推斷下一時刻的發展無疑,面向所謂的 AGI(通用人工智能),多模態顯然是必經之路。但是遺憾 GPT-4 的圖片輸入能力尚且沒有完全放開,而即使放開我們對 GPT-4 的模型結構和訓練方法也知之甚少。

而最近,中科院自動化所帶來了一項有趣的工作,推出了多模態的大規模語言模型 X-LLM,同時支持圖片、語音以及視頻等多種模態信息作為大模型的輸入,并且展現了類似于 GPT-4 的表現。比如當輸入圖像時,X-LLM 可以識別圖像位置、理解圖像中的食物。當輸入視頻時,X-LLM 也可以總結視頻內容,檢索電影片段的電影名稱,基于視頻內容結合圖像回答問題等等。以論文中的一張圖片為例,當用戶希望 X-LLM 介紹輸入的圖片時,X-LLM 準確的理解了圖片相關于游戲王者榮耀,并且給出了一定的介紹。

從性能來看,作者團隊使用了 30 張模型未見過的圖像,每張圖像都與相關于對話、詳細描述以及推理三類的問題,從而形成了 90 個指令-圖像對以測試 X-LLM 與 GPT-4 的表現。可以看到,通過使用 ChatGPT 從 1 到 10 為模型回復進行評分,與 GPT-4 相比 X-LLM 取得了 84.5% 的相對分數,表明了模型在多模態的環境中是有效的

960f3906-f70c-11ed-90ce-dac502259ad0.png

除此之外,這篇工作也開源了相關的代碼和一個簡潔高質量的中文多模態指令數據集,幫助后續工作使用 X-LLM 的框架進行研究,

在進入論文之前,首先來想想一個問題,GPT-4 是如何獲得其強大的多模態能力的呢?論文作者給出了一個假設:“GPT-4 的多模態能力來源于其更先進,更大的語音模型,即 GPT-4 是用語言的形式表達出了其他模態的內容”

這個假設也就是講,需要將多模態的數據“對齊”到語言數據之中,然后再投入大模型以獲得多模態能力,在這個假設的基礎上,作者提出了 X2L 接口,其中 X 意味著多模態數據,而 L 則表示語言,X2L 接口即將多個單模態編碼器與一個大規模語言模型(LLM)進行對齊。其中,圖像接口 I2L 采用 BLIP-2 中的 Q-Former,視頻接口 V2L 復用圖像接口的參數,但是考慮了編碼后的視頻特征,語言接口 S2L 采用 CIF 與 Transformer 結構將語音轉換為語言。整個 X-LLM 的訓練包含三個階段,分別是(1)轉換多模態信息;(2)將 X2L 對齊到 LLM;(3)將多模態數據整合到 LLM 中。

96193f0a-f70c-11ed-90ce-dac502259ad0.png

具體而言,多模態信息轉換的三個接口設計如下:

圖像接口:圖像接口由 Q-Formers 和 I-Adapter 模塊組成。Q-Formers的目標是將圖像轉換為語言,將從圖像編碼器獲得的圖像特征轉換為長度為 L 的準語言嵌入的序列。I-Adapter 模塊旨在對齊準語言嵌入的維數和 LLM 的嵌入維數;

視頻接口:視頻接口與圖像接口采用相同的結構,并且均勻采樣使用 T 幀表示每個視頻,再將每幀視頻視為圖像,構建長度為 T x L 的準語言嵌入序列;

語言接口:語音接口由兩部分組成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模塊和 12 層 Transformer 模塊的組合。CIF 模塊通過變長下采樣將語音編碼器的語音特征序列壓縮為相同長度的令牌級語音嵌入序列,而 Transformer 結構為令牌級語音嵌入提供了更強的上下文建模。S-Adaptor 用于將 Transformer 結構的輸出投影到 LLM 的輸入向量空間,從而進一步縮小了語音與語言之間的差距。

而在第二階段,Q-Former 的參數來源于 BLIP2 中的 Q-Former 的參數。為了使得 Q-Former 適應中文 LLM,作者們使用了一個總共包括約 1400 萬個中文圖片-文本對的數據集進行訓練,并使用圖片中訓練好的接口初始化視頻中的 Q-Former 和 V-Adapter,最后,使用 ASR 數據訓練語音接口,使語音界面的輸出與 LLM 對齊。在整個過程中,Encoder 部分與 LLM 部分都不參與訓練,只有接口部分進行訓練

而最后第三階段,論文使用多模態聯合訓練增強 X-LLM 的多模態能力,但是可以看到,在沒有進行聯合訓練時,X-LLM 已經具有了識別多模態的能力,這種能力很有可能是來自于 LLM。而為了進行聯合訓練,作者構建了一個多模態指令數據集對接口進行微調,包含(1) 圖像-文本指令數據,(2)語音-文本指令數據,(3) 視頻-文本指令數據以及 (4) 圖像-文本-語音指令數據。整個數據集主要來源于 MiniGPT-4(圖像,3.5k)、AISHELL-2(語音,2k)以及 ActivityNet(視頻,1k)。

9622e208-f70c-11ed-90ce-dac502259ad0.png

而在實驗方面,論文作者開發了一個聊天界面,用以與其他開源的多模態大規模語言模型( LLaVA 與 MiniGPT-4)做對比,整體而言,X-LLM 具備了相當不錯的閱讀和理解圖片的能力,并且可以更好的捕捉其中具有“中國特色”的預料,如下圖問答所示,當輸入天安門的圖片時,X-LLM 準確的識別出了它是北京的故宮,并且給出了一些歷史的介紹,而相應 LLaVA 與 MiniGPT-4 僅僅識別出來了中國的宮殿和旗幟,但是并沒有提到 Forbidden City。

同時,X-LLM 也能準確的識別和理解語音信息,這里的“詳細描述一下這個“照片”是以語音形式進行的輸入,可以看到 X-LLM 也能給出相當不錯的回答,并且可以進行延申交流。

此外,在視頻問答方面,X-LLM 也表現得相當不錯,對于輸入的水母游動的視頻,X-LLM 可以頗為準確的為視頻做出標題,并配以文字

對于敏感信息,X-LLM 也能做到識別

除了 X-LLM 這樣一個將大規模語音模型向多模態方向扎實推進了一步的框架外,作者也意外的發現,在英文數據集上訓練的 Q-former 的參數可以轉移到其他語言(漢語),并仍然保持有效性。這種語言的可傳遞性極大地增加了使用英語圖像文本數據和其訓練的模型參數平移到其他語言中的可能性,并提高了在其他語言中訓練多模態 LLM 的效率。

透過這篇工作,或許我們可以一窺多模態大模型光明的未來,回到開頭,多模型必然是 AGI 的必經之路,那么以語言為基準統一多模態可不可以實現呢?那就要看跟隨這篇工作出現的未來了吧!

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7139

    瀏覽量

    89579
  • 模型
    +關注

    關注

    1

    文章

    3309

    瀏覽量

    49224
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10341

原文標題:中科院發布多模態 ChatGPT,圖片、語言、視頻都可以 Chat ?中文多模態大模型力作

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ChatGPT升級 OpenAI史上最強大模型GPT-4發布

    是 Generative Pre-trained Transformer 4 的縮寫,即生成型預訓練變換模型 4,是一個多模態大型語言模型
    的頭像 發表于 03-15 18:15 ?2861次閱讀

    GPT-4多模態模型發布,對ChatGPT的升級和斷崖式領先

    而且 GPT-4 是多模態的,同時支持文本和圖像輸入功能。此外,GPT-4 比以前的版本“更大”,這意味著其已經在更多的數據上進行了訓練,并且在模型文件中有更多的權重,這也使得它的運行
    的頭像 發表于 03-17 10:31 ?3484次閱讀

    GPT-4是這樣搞電機的

    GPT-4寫電機基礎程序沒問題
    的頭像 發表于 04-17 09:41 ?1079次閱讀
    <b class='flag-5'>GPT-4</b>是這樣搞電機的

    最新、最強大的模型GPT-4將向美國政府機構開放

    最新、最強大的模型GPT-4將向美國政府機構開放 此前微軟已向其商業客戶提供了OpenAI模型,現在微軟宣布將向azure government云計算客戶開放openai的人工智能模型
    的頭像 發表于 06-08 20:15 ?1546次閱讀

    人工通用智能的火花:GPT-4的早期實驗

    ],是使用前所未有 的計算和數據規模訓練出來的。在本文中,我們報告了我們對GPT-4早期版本的調查,當時它還在OpenAI 的積極開發中。我們認為,(這個早期版本的)GPT-4是新一批LLM的一部分(例如,與ChatGPT和谷歌
    發表于 06-20 15:49 ?1次下載

    GPT-4已經會自己設計芯片了嗎?

    ? GPT-4已經會自己設計芯片了!芯片設計行業的一個老大難問題HDL,已經被GPT-4順利解決。并且,它設計的130nm芯片,已經成功流片。 GPT-4,已經可以幫人類造芯片了! 只用簡單的英語
    的頭像 發表于 06-20 11:51 ?1023次閱讀
    <b class='flag-5'>GPT-4</b>已經會自己設計芯片了嗎?

    GPT-4催生的接口IP市場空間

    。陸奇稱由GPT-4開啟的新時代在高速地進行,速度越來越快。他將這種引起社會、產業發生的結構性改變稱之為新范式。 從本質上看,以GPT-4為代表的新范式是基于數據中心發展起來的新興AI應用,可以通過大量的數據
    的頭像 發表于 07-03 14:17 ?922次閱讀

    爆了!GPT-4模型架構、訓練成本、數據集信息都被扒出來了

    文章稱,他們從許多來源收集了大量有關 GPT-4 的信息,包括模型架構、訓練基礎設施、推理基礎設施、參數量、訓練數據集組成、token 量、層數、并行策略、多模態視覺適應、不同工程權衡
    的頭像 發表于 07-12 14:16 ?881次閱讀
    爆了!<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>架構、<b class='flag-5'>訓練</b>成本、數據集信息都被扒出來了

    OpenAI宣布GPT-4 API全面開放使用!

    OpenAI 在博客文章中寫道:“自 3 月份以來,數百萬開發者請求訪問 GPT-4 API,并且利用 GPT-4 的創新產品范圍每天都在增長。” “我們設想基于對話的模型未來可以支持任何用例。”
    的頭像 發表于 07-12 14:55 ?1310次閱讀

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    每月20美元)更智能、更準確。 OpenAI將GPT-4描述為“比其前身GPT-3.5先進10倍”。 自從OpenAI的大語言模型(LLM)GPT-4發布以來,我一直在使用它的最新版本
    的頭像 發表于 08-02 12:09 ?4378次閱讀
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發布了 GPT-4模型,帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。在各行各領域研究人員、開發者、設計師的使用過程中,「
    的頭像 發表于 08-11 14:20 ?961次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    OpenAI最新大模型曝光!劍指多模態,GPT-4之后最大升級!

    目前為止,OpenAI還沒有對爆料中的傳聞做出回應,但此前發布過多模態模型測試。CEO奧特曼在回應有關GPT-5的傳聞時,也暗示過GPT-4“正在增強”。
    的頭像 發表于 09-20 17:34 ?1271次閱讀
    OpenAI最新大<b class='flag-5'>模型</b>曝光!劍指多模態,<b class='flag-5'>GPT-4</b>之后最大升級!

    ChatGPT plus有什么功能?OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發布了一項備受期待的公告:推出GPT-4 Turbo,這是對其突破性AI模型
    的頭像 發表于 12-13 09:19 ?1237次閱讀
    ChatGPT plus有什么功能?OpenAI 發布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發表于 03-13 13:42 ?780次閱讀

    ai大模型訓練方法有哪些?

    AI大模型訓練方法是一個復雜且不斷發展的領域。以下是ai大模型訓練方法: 數據預處理和增強 數據清洗:去除噪聲和不完整的數據。 數據標準化:將數據縮放到統一的范圍。 數據增強:通過旋轉
    的頭像 發表于 07-16 10:11 ?1818次閱讀
    金都娱乐城| 澳门博彩公司| 百家乐多少点数算赢| 百家乐官网有真假宝单吗| 大发888注册开户| 模拟百家乐下载| 澳门百家乐官网论坛及玩法| 大世界百家乐官网现金网| bet365.com| 黄金城百家乐免费下载| 稳赢的百家乐投注方法| 职业百家乐官网的玩法技巧和规则 | 封开县| 全讯网3344555| 百家乐输钱的原因| rmb百家乐官网的玩法技巧和规则 木星百家乐官网的玩法技巧和规则 | 宜君县| 顶级赌场 足彩分析| 女神百家乐的玩法技巧和规则 | 博彩百家乐官网组选六六组| 太阳城百家乐官网看牌| 布尔津县| 香港六合彩开奖现场直播| 江西老虎机遥控器| 百家乐博赌场| 百家乐平台哪个好本站所有数据都是网友推荐及提供 | 龙井市| 香港六合彩现场直播| 大发888官方网站下载| 华侨人百家乐的玩法技巧和规则| 赌博百家乐秘笈| 游戏机百家乐作弊| 百家乐官网平预测软件| 自贡百家乐官网赌场娱乐网规则 | 百家乐官网小游戏单机版| 百家乐官网永利娱乐| ez百家乐官网技巧| 百家乐官网庄比闲多多少| 苏尼特右旗| 唐河县| 鸿运娱乐城|