大上海娱乐场官网官网地址,淘金盈娱乐城如何代理,红太阳博彩网(中国)·官方网站

在包含 280 萬條多模態(tài)上下文指令 - 相應(yīng)對的數(shù)據(jù)集上訓(xùn)練之后，Otter 展現(xiàn)出了優(yōu)秀的問答能力，并在 ChatGPT 及人類的兩項評估中獲得了很高的評價。

近段時間來，AI 對話助手在語言任務(wù)上取得了不小的進(jìn)展。這種顯著的進(jìn)步不只是基于 LLM 強大的泛化能力，還應(yīng)該歸功于指令調(diào)優(yōu)。這涉及到在一系列通過多樣化和高質(zhì)量指令的任務(wù)上對 LLM 進(jìn)行微調(diào)。

借助指令調(diào)優(yōu)獲得零樣本性能的一個潛在原因是，它內(nèi)化了上下文。這很重要，特別是當(dāng)用戶輸入跳過常識性的上下文時。通過納入指令調(diào)優(yōu)，LLM 獲得了對用戶意圖的高度理解，即使在以前未見過的任務(wù)中也能表現(xiàn)出更好的零樣本能力。

然而，一個理想的 AI 對話助手應(yīng)該能夠解決涉及多種模態(tài)的任務(wù)。這需要獲得一個多樣化和高質(zhì)量的多模式指令跟隨數(shù)據(jù)集。比如，LLaVAInstruct-150K 數(shù)據(jù)集（也被稱為 LLaVA）就是一個常用的視覺 - 語言指令跟隨數(shù)據(jù)集，它是使用 COCO 圖像、指令和從 GPT-4 中獲得的基于圖像說明和目標(biāo)邊界框的響應(yīng)構(gòu)建的。但 LLaVA-Instruct-150K 具有三個局限性：有限的視覺多樣性；使用圖片作為單一視覺數(shù)據(jù)；上下文信息僅包含語言形態(tài)。

為了推動 AI 對話助手突破這些限制，來自新加坡南洋理工大學(xué)、微軟雷蒙德研究院的學(xué)者們提出了多模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)集 MIMIC-IT，這是一個包含 280 萬條多模態(tài)上下文指令 - 相應(yīng)對的數(shù)據(jù)集，涵蓋各種現(xiàn)實生活場景。

論文地址：https://arxiv.org/pdf/2306.05425.pdf

此外，為了高效地生成指令 - 響應(yīng)對，研究者還介紹了「Sythus」，這是一個受 self-instruct 方法啟發(fā)的指令 - 響應(yīng)注釋的自動化 pipeline。Sythus 采用系統(tǒng)信息、視覺注釋和上下文中的例子來指導(dǎo)語言模型（GPT-4 或 ChatGPT）根據(jù)視覺語境生成指令 - 響應(yīng)對，針對視覺語言模型的三個基本能力：感知、推理和規(guī)劃。此外，英文的指令和響應(yīng)被譯成七種語言，以支持多種語言的使用。

特別值得注意的是，研究者在 MIMIC-IT 上訓(xùn)練了基于 OpenFlamingo 的多模態(tài)模型「Otter」。通過 ChatGPT、人類兩個方面的評估，Otter 的多模態(tài)能力超越了近期的其他視覺 - 語言模型。

在一系列 Demo 中，研究者展示了 Otter 的多模態(tài)問答能力：

Q：接下來出哪張牌？

A：八筒。這樣你就能留著四條和五條，等著湊成順子。

Q：我想著陸了，怎么操作？

A：按一次左下按鈕，左轉(zhuǎn)，要著陸時拉右邊的手剎。

Q：接下來怎么辦？

A：把球傳到中路，跑到球門，尋找進(jìn)球機會。

接下來，讓我們看看研究細(xì)節(jié)。

MIMIC-IT 數(shù)據(jù)集

MIMIC-IT 數(shù)據(jù)集包括 280 萬個多模態(tài)指令 - 響應(yīng)對，涵蓋了基本能力：感知、推理和計劃。每個指令都伴隨著多模態(tài)的對話背景，使在 MIMIC-IT 上訓(xùn)練的 VLM 能夠在交互式指令中表現(xiàn)出很好的熟練度，并能進(jìn)行零樣本的概括。

相比于 LLaVA，MIMIC-IT 的特點包括：

(1) 多樣化的視覺場景，包含了一般場景、自我中心視角場景和室內(nèi) RGB-D 圖像等不同數(shù)據(jù)集的圖像和視頻；

(2) 多個圖像（或一個視頻）作為視覺數(shù)據(jù)；

(3) 多模態(tài)的上下文信息，包括多個指令 - 響應(yīng)對和多個圖像或視頻；

(4) 支持八種語言，包括英文、中文、西班牙文、日語、法語、德語、韓語和阿拉伯語。

下圖進(jìn)一步展示了二者的指令 - 響應(yīng)對對比（黃色方框為 LLaVA）：

如表 1 所示，MIMIC-IT 的數(shù)據(jù)源來自七個數(shù)據(jù)集：COCO、Spot-the-diff (SD)、ScanNetV2 (SN)、VisualStorytelling (VIST) 、DenseCaption/Activity caption（DC）、TVCaption（TVC）和 Ego4D（E4D）?！干舷挛摹惯@一列的「lang.」表示語言，「vis.」表示視覺。

Sythus：自動化指令 - 響應(yīng)對生成 pipeline

同時，研究者提出了 Sythus（圖 3），這是一個自動化 pipeline，用于生成多種語言的高質(zhì)量指令 - 響應(yīng)對。在 LLaVA 提出的框架基礎(chǔ)上，研究者利用 ChatGPT 來生成基于視覺內(nèi)容的指令 - 響應(yīng)對。為了確保生成的指令 - 響應(yīng)對的質(zhì)量，該 pipeline 將系統(tǒng)信息、視覺注釋和上下文中的樣本作為 ChatGPT 的 prompt。系統(tǒng)信息定義了所生成的指令 - 響應(yīng)對的預(yù)期語氣和風(fēng)格，而視覺注釋則提供了基本的圖像信息，如邊界框和圖像描述。上下文中的樣本幫助 ChatGPT 在語境中學(xué)習(xí)。

由于核心集的質(zhì)量會影響后續(xù)的數(shù)據(jù)收集過程，研究者采用了一個冷啟動策略，在大規(guī)模查詢之前加強上下文中的樣本。在冷啟動階段，采用啟發(fā)式方法，僅通過系統(tǒng)信息和視覺注釋來 prompt ChatGPT 收集上下文中的樣本。這個階段只有在確定了令人滿意的上下文中的樣本后才結(jié)束。在第四步，一旦獲得指令 - 響應(yīng)對，pipeline 會將它們擴展為中文（zh）、日文（ja）、西班牙文（es）、德文（de）、法文（fr）、韓文（ko）和阿拉伯語（ar）。進(jìn)一步的細(xì)節(jié)，可參考附錄 C，具體的任務(wù) prompt 可以在附錄 D 中找到。

經(jīng)驗性評估

隨后，研究者展示了 MIMIC-IT 數(shù)據(jù)集的各種應(yīng)用以及在其上訓(xùn)練的視覺語言模型 (VLM) 的潛在能力。首先，研究者介紹了使用 MIMIC-IT 數(shù)據(jù)集開發(fā)的上下文指令調(diào)優(yōu)模型 Otter。而后，研究者探索了在 MIMIC-IT 數(shù)據(jù)集上訓(xùn)練 Otter 的各種方法，并討論了可以有效使用 Otter 的眾多場景。

圖 5 是 Otter 在不同場景下的響應(yīng)實例。由于在 MIMIC-IT 數(shù)據(jù)集上進(jìn)行了訓(xùn)練，Otter 能夠為情境理解和推理、上下文樣本學(xué)習(xí)、自我中心的視覺助手服務(wù)。

最后，研究者在一系列基準(zhǔn)測試中對 Otter 與其他 VLM 的性能進(jìn)行了比較分析。

ChatGPT 評估

下表 2 展示了研究者利用 MMAGIBench 框架對視覺語言模型的感知和推理能力進(jìn)行廣泛的評估。

人類評估

Multi-Modality Arena使用 Elo 評級系統(tǒng)來評估 VLM 響應(yīng)的有用性和一致性。圖 6 (b) 顯示 Otter 展示了卓越的實用性和一致性，在最近的 VLM 中獲得了最高的 Elo 評級。

少樣本上下文學(xué)習(xí)基準(zhǔn)評估

Otter 基于 OpenFlamingo 進(jìn)行微調(diào)，OpenFlamingo 是一種專為多模態(tài)上下文學(xué)習(xí)而設(shè)計的架構(gòu)。使用 MIMIC-IT 數(shù)據(jù)集進(jìn)行微調(diào)后，Otter 在 COCO 字幕 (CIDEr) 少樣本評估（見圖 6 (c)）上的表現(xiàn)明顯優(yōu)于 OpenFlamingo。正如預(yù)期的那樣，微調(diào)還帶來了零樣本評估的邊際性能增益。

圖 6：ChatGPT 視頻理解的評估。

討論

缺陷。雖然研究者已經(jīng)迭代改進(jìn)了系統(tǒng)消息和指令 - 響應(yīng)示例，但 ChatGPT 容易出現(xiàn)語言幻覺，因此它可能會生成錯誤的響應(yīng)。通常，更可靠的語言模型需要 self-instruct 數(shù)據(jù)生成。

未來工作。未來，研究者計劃支持更多具體地 AI 數(shù)據(jù)集，例如 LanguageTable 和 SayCan。研究者也考慮使用更值得信賴的語言模型或生成技術(shù)來改進(jìn)指令集。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31534

瀏覽量
270342
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
538

瀏覽量
10342
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1209

瀏覽量
24835

原文標(biāo)題：280萬條多模態(tài)指令-響應(yīng)對，八種語言通用，首個涵蓋視頻內(nèi)容的指令數(shù)據(jù)集MIMIC-IT來了

文章出處：【微信號：AI智勝未來，微信公眾號：AI智勝未來】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

開講之前，咱們有必要看看這兩個概念：a -- 上下文 上下文是從英文context翻譯過來，指的是一種環(huán)境。相對于進(jìn)程而言，就是進(jìn)程執(zhí)行時的環(huán)境；具體來說就是各個變量和數(shù)據(jù)，包括所有的寄存器變量

發(fā)表于 09-06 09:58

進(jìn)程上下文與中斷上下文的理解

來源網(wǎng)絡(luò)一.什么是內(nèi)核態(tài)和用戶態(tài)內(nèi)核態(tài)：在內(nèi)核空間執(zhí)行，通常是驅(qū)動程序，中斷相關(guān)程序，內(nèi)核調(diào)度程序，內(nèi)存管理及其操作程序。用戶態(tài)：用戶程序運行空間。二.什么是進(jìn)程上下文與中斷上下文1.進(jìn)程上下文

發(fā)表于 12-11 19:45

JavaScript的執(zhí)行上下文

JavaScript執(zhí)行上下文之執(zhí)行上下文棧

發(fā)表于 05-29 16:12

進(jìn)程上下文/中斷上下文及原子上下文的概念

為什么會有上下文這種概念進(jìn)程上下文/中斷上下文及原子上下文的概念

發(fā)表于 01-13 07:17

基于多Agent的用戶上下文自適應(yīng)站點構(gòu)架

自適應(yīng)站點很少考慮對用戶環(huán)境的自適應(yīng)。為此，提出用戶上下文自適應(yīng)站點的概念，給出基于多Agent技術(shù)的用戶上下文自適應(yīng)站點構(gòu)架模型。闡述用戶上下文獲取、挖掘過程以及站

發(fā)表于 04-11 08:49 ?13次下載

基于交互上下文的預(yù)測方法

傳統(tǒng)的上下文預(yù)測是在單用戶的上下文基礎(chǔ)上進(jìn)行的，忽視了實際普適計算環(huán)境中由于用戶交互活動導(dǎo)致的上下文變化因素。為了合理、有效地解決上述局限性問題，該文提出基

發(fā)表于 10-04 14:08 ?7次下載

終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

該文針對業(yè)務(wù)上下文僅關(guān)注業(yè)務(wù)質(zhì)量較少考慮用戶終端環(huán)境的現(xiàn)狀，提出終端業(yè)務(wù)上下文的概念，為普適業(yè)務(wù)的開展提供必要的信息支撐。給出一種終端業(yè)務(wù)上下文的通用定義方法

發(fā)表于 03-06 11:06 ?11次下載

基于Pocket PC的上下文菜單實現(xiàn)

介紹了基于 Pocket PC 中的點按操作概念, 論述了在Pocket PC 中上下文菜單的實現(xiàn)原理及方法, 并給出了基于MFC 下的Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實例。

發(fā)表于 07-25 18:26 ?17次下載

基于Pocket PC的上下文菜單實現(xiàn)

本文介紹了基于 Pocket PC 中的“點按”操作概念論述了在 Pocket PC 中上下文菜單的實現(xiàn)原理及方法并給出了基于 MFC 下的 Windows CE 應(yīng)用程序?qū)崿F(xiàn)上下文菜單的步驟和代碼實例。

發(fā)表于 04-18 10:46 ?0次下載

基于上下文相似度的分解推薦算法

針對移動服務(wù)推薦中用戶上下文環(huán)境復(fù)雜多變和數(shù)據(jù)稀疏性問題，提出一種基于移動用戶上下文相似度的張量分解推薦算法-UCS-TF。該算法組合用戶間的多維上下文相似度和

發(fā)表于 11-27 17:42 ?0次下載

基于低秩重檢測的多特征時空上下文的視覺跟蹤

無法進(jìn)行初始化．針對時空上下文算法存在的弱點。本文提出了一個基于低秩重檢測的多特征時空上下文跟蹤方法．首先利用多特征對時空上下文進(jìn)行多方面的

發(fā)表于 12-15 15:01 ?0次下載

初學(xué)OpenGL：什么是繪制上下文

初學(xué)OpenGL，打開紅寶書，會告訴你OpenGL是個狀態(tài)機，OpenGL采用了客戶端-服務(wù)器模式，那時覺得好抽象，直到后來了解了繪制上下文才把這些聯(lián)系起來。我們可以認(rèn)為每一個硬件GPU是個服務(wù)器

發(fā)表于 04-28 11:47 ?2491次閱讀

如何分析Linux CPU上下文切換問題

在我的上一篇文章：《探討 Linux CPU 的上下文切換》中，我談到了 CPU 上下文切換的工作原理。快速回顧一下，CPU 上下文切換是保證 Linux 系統(tǒng)正常運行的核心功能?？煞譃檫M(jìn)程上

發(fā)表于 05-05 20:11 ?2022次閱讀

網(wǎng)絡(luò)安全中的上下文感知

當(dāng)今，所有網(wǎng)絡(luò)安全領(lǐng)域都在向上下文感知基礎(chǔ)設(shè)施轉(zhuǎn)變。應(yīng)用程序感知、身份感知、內(nèi)容感知、流程感知、環(huán)境感知，都是向上下文感知轉(zhuǎn)變的例子。

發(fā)表于 09-20 09:27 ?2294次閱讀

Linux技術(shù)：什么是cpu上下文切換

過多的上下文切換會消耗 CPU 的時間來保存和恢復(fù)寄存器、程序計數(shù)器、內(nèi)核棧和虛擬內(nèi)存等數(shù)據(jù)，從而導(dǎo)致系統(tǒng)性能顯著下降。既然上下文切換對系統(tǒng)性能的影響如此之大，那么我們?nèi)绾螜z查它呢？好了，你可以使用 vmstat 工具來查詢你

發(fā)表于 09-01 09:31 ?528次閱讀

那曲檬骨新材料有限公司

搜索歷史

多模態(tài)上下文指令調(diào)優(yōu)數(shù)據(jù)集MIMIC-IT

評論

關(guān)于進(jìn)程上下文、中斷上下文及原子上下文的一些概念理解

進(jìn)程上下文與中斷上下文的理解

JavaScript的執(zhí)行上下文

進(jìn)程上下文/中斷上下文及原子上下文的概念

基于多Agent的用戶上下文自適應(yīng)站點構(gòu)架

基于交互上下文的預(yù)測方法

終端業(yè)務(wù)上下文的定義方法及業(yè)務(wù)模型

基于Pocket PC的上下文菜單實現(xiàn)

基于Pocket PC的上下文菜單實現(xiàn)

基于上下文相似度的分解推薦算法

基于低秩重檢測的多特征時空上下文的視覺跟蹤

初學(xué)OpenGL：什么是繪制上下文

如何分析Linux CPU上下文切換問題

網(wǎng)絡(luò)安全中的上下文感知

Linux技術(shù)：什么是cpu上下文切換