如何利用Transformers了解視覺語言模型

人類學習本質(zhì)上是多模態(tài) (multi-modal) 的，因為聯(lián)合利用多種感官有助于我們更好地理解和分析新信息。理所當然地，多模態(tài)學習的最新進展即是從這一人類學習過程的有效性中汲取靈感，創(chuàng)建可以利用圖像、視頻、文本、音頻、肢體語言、面部表情和生理信號等各種模態(tài)信息來處理和鏈接信息的模型。

自 2021 年以來，我們看到大家對結(jié)合視覺和語言模態(tài)的模型 (也稱為聯(lián)合視覺語言模型) 的興趣越來越濃，一個例子就是 OpenAI 的 CLIP。聯(lián)合視覺語言模型在非常具有挑戰(zhàn)性的任務中表現(xiàn)出了讓人眼前一亮的能力，諸如圖像標題生成、文本引導圖像生成、文本引導圖像操作以及視覺問答等。這個領(lǐng)域在不斷發(fā)展，其零樣本泛化能力也在不斷改進，從而產(chǎn)生了各種實際應用。

本文，我們將介紹聯(lián)合視覺語言模型，重點關(guān)注它們的訓練方式。我們還將展示如何利用 Transformers 對該領(lǐng)域的最新進展進行實驗。

簡介

將模型稱為 “視覺語言” 模型是什么意思？一個結(jié)合了視覺和語言模態(tài)的模型？但這到底是什么意思呢？

有助于定義此類模型的一個特性是它們處理圖像 (視覺) 和自然語言文本 (語言) 的能力。而這個過程體現(xiàn)在輸入、輸出以及要求這些模型執(zhí)行的任務上。

以零樣本圖像分類任務為例。我們將傳給模型如下一張圖像和一些候選提示 (prompt)，以獲得與輸入圖像最匹配的提示。

小動物圖片出自:
https://www.istockphoto.com/photos/dog-cat-love

為了預測類似的東西，模型需要理解輸入圖像和文本提示。它將使用單獨或融合的視覺和語言編碼器來達到理解的目的。

輸入和輸出可以有多種形式。下面僅舉幾例:

用自然語言文本來檢索圖像。

短語關(guān)聯(lián) (Phrase grounding)，即在輸入圖像中檢測出文本中提到的短語 (例如: 一個年輕人揮動球拍)。

視覺問答，即在輸入圖像中找到自然語言問題的答案。

為給定圖像生成標題。該任務還有一個形式就是條件文本生成，此時輸入變成了兩個，即自然語言提示和圖像。

從包含圖像和文本模態(tài)的社交媒體內(nèi)容中檢測仇恨言論。

學習策略

視覺語言模型通常由 3 個關(guān)鍵元素組成: 圖像編碼器、文本編碼器以及融合兩個編碼器的信息的策略。這些關(guān)鍵元素緊密耦合在一起，因為損失函數(shù)是圍繞模型架構(gòu)和學習策略設(shè)計的。雖然視覺語言模型研究算不上是一個新的研究領(lǐng)域，但此類模型的設(shè)計隨著時間的變遷發(fā)生了巨大變化。早期的研究采用手工設(shè)計的圖像描述子、預訓練詞向量或基于頻率的 TF-IDF 特征，而最新的研究主要采用 Transformer 架構(gòu)的圖像和文本編碼器來單獨或聯(lián)合學習圖像和文本特征。我們使用戰(zhàn)略性的預訓練目標來訓練這些模型，從而使之可用于各種下游任務。

關(guān)于 Transformers 注意力理論的論文:
https://arxiv.org/abs/1706.03762

在本節(jié)中，我們將討論視覺語言模型的一些典型預訓練目標和策略，這些模型已被證明有良好的遷移性能。我們還將討論其他有趣的東西，它們要么特定于某些預訓練目標，要么可以用作預訓練的通用組件。

我們將在預訓練目標中涵蓋以下主題:

對比學習: 以對比方式將圖像和文本對齊到聯(lián)合特征空間

PrefixLM: 通過將圖像視作語言模型的前綴來聯(lián)合學習圖像和文本嵌入

基于交叉注意力的多模態(tài)融合:?將視覺信息融合到具有交叉注意力機制的語言模型的各層中

MLM / ITM: 使用掩碼語言建模 (Masked-Language Modeling，MLM) 和圖像文本匹配 (Image-Text Matching，ITM) 目標將圖像的各部分與文本對齊

無訓練:?通過迭代優(yōu)化來利用獨立視覺和語言模型

請注意，本節(jié)并未詳盡陳述所有方法，還有各種其他方法以及混合策略，例如 Unified-IO。如需更全面地了解多模態(tài)模型，請參閱此項工作:

Unified-IO 論文地址:
https://arxiv.org/abs/2206.08916 多模態(tài)模型參考論文地址:
https://arxiv.org/abs/2210.09263

1) 對比學習

對比預訓練和零樣本圖像分類

上圖出處:
https://openai.com/blog/clip

對比學習是視覺模型常用的預訓練目標，也已被證明同時是視覺語言模型的高效預訓練目標。近期的工作如 CLIP、CLOOB、ALIGN 和 DeCLIP 在 {圖像，標題} 對組成的大型數(shù)據(jù)集上，通過使用對比損失函數(shù)聯(lián)合訓練文本編碼器和圖像編碼器，從而橋接視覺和語言兩個模態(tài)。對比學習旨在將輸入圖像和文本映射到相同的特征空間，使得圖像 - 文本對的嵌入之間的距離在兩者匹配時最小化，而在不匹配時最大化。

CLIP 論文地址:
https://arxiv.org/abs/2103.00020 CLOOB 論文地址:
https://arxiv.org/abs/2110.11316 ALIGN 論文地址:
https://arxiv.org/abs/2102.05918 DeCLIP 論文地址:
https://arxiv.org/abs/2110.05208

CLIP 僅采用文本和圖像嵌入之間的余弦距離作為距離度量。而 ALIGN 和 DeCLIP 等模型則設(shè)計了自己的距離度量，這些距離在設(shè)計時考慮了數(shù)據(jù)集是有噪聲的。

另一項工作 LiT 引入了一種凍結(jié)圖像編碼器而僅使用 CLIP 預訓練目標來微調(diào)文本編碼器的簡單方法。作者將這個想法解釋為 一種教文本編碼器更好地讀懂圖像編碼器生成的圖像嵌入的方法。這種方法已被證明是有效的，并且比 CLIP 的樣本效率更高。FLAVA 等其他工作將對比學習和其他預訓練策略相結(jié)合來對齊視覺和語言嵌入。

LiT 論文地址:
https://arxiv.org/abs/2111.07991 FLAVA 論文地址:
https://arxiv.org/abs/2112.04482

2) PrefixLM

PrefixLM 預訓練策略框圖

上圖出處:
https://ai.googleblog.com/2021/10/simvlm-simple-visual-language-model-pre.html

另一種訓練視覺語言模型的方法是使用 PrefixLM 目標。SimVLM 和 VirTex 等模型使用該預訓練目標并使用一個統(tǒng)一的由 transformer 編碼器和 transformer 解碼器組成的多模態(tài)架構(gòu)，有點類似于自回歸語言模型。

SimVLM 論文地址:
https://arxiv.org/abs/2108.10904 VirTex 論文地址:
https://arxiv.org/abs/2006.06666v3

讓我們拆解一下，看看它是如何工作的。具有前綴目標的語言模型在給定輸入文本作為前綴的情況下預測下一個詞。例如，給定序列 “一個男人站在墻角”，我們可以使用” 一個男人站在” 作為前綴并訓練模型以預測下一個詞: 可以是 “墻角” 或另一個合理的補全詞。

Visual transformers (ViT) 通過將每個圖像劃分為多個塊 (patch) 并將這些塊按順序輸入給模型，從而將相同的前綴概念應用于圖像。利用這個想法，SimVLM 實現(xiàn)了這樣一種架構(gòu)，將圖像塊序列和前綴文本序列串接起來作為最終的前綴，輸入給編碼器，然后由解碼器來預測該文本序列的接續(xù)文本。上圖描述了該思想。SimVLM 模型首先在前綴中沒有圖像塊的文本數(shù)據(jù)集上進行預訓練，然后在對齊的圖像文本數(shù)據(jù)集上進行預訓練。這些模型用于圖生文 / 圖像標題生成和 VQA 任務。

利用統(tǒng)一的多模態(tài)架構(gòu)將視覺信息融合到語言模型 (Language Model，LM) 中，最終生成的模型在圖像引導類任務中顯示出令人印象深刻的能力。然而，僅使用 PrefixLM 策略的模型在應用領(lǐng)域上可能會受到限制，因為它們主要為圖像標題生成或視覺問答這兩個下游任務而設(shè)計。例如，給定一組包含人的圖像，我們通過圖像的描述來查詢符合描述的圖像 (例如，“一群人站在一起微笑著站在建筑物前”) 或使用以下視覺推理問題來查詢: “有多少人穿著紅色 T 恤？” 圖像。另一方面，學習多模態(tài)表示或采用混合方法的模型可以適用于各種其他下游任務，例如目標檢測和圖像分割。

凍結(jié) PrefixLM

凍結(jié) PrefixLM 預訓練策略

上圖出處:
https://lilianweng.github.io/posts/2022-06-09-vlm

雖然將視覺信息融合到語言模型中非常有效，但能夠使用預訓練語言模型 (LM) 而無需微調(diào)會更有效。因此，視覺語言模型的另一個預訓練目標是學習與凍結(jié)語言模型對齊的圖像嵌入。

Frozen、MAPL 和 ClipCap 使用了凍結(jié) PrefixLM 預訓練目標。它們在訓練時僅更新圖像編碼器的參數(shù)以生成圖像嵌入，這些圖像嵌入可以用作預訓練的凍結(jié)語言模型的前綴，其方式與上面討論的 PrefixLM 目標類似。Frozen 和 ClipCap 都在對齊的圖像文本 (標題) 數(shù)據(jù)集上進行訓練，目的是在給定圖像嵌入和前綴文本的情況下生成標題中的下一個詞。

Frozen 論文地址:
https://arxiv.org/abs/2106.13884 MAPL 論文地址:
https://arxiv.org/abs/2210.07179 ClipCap 論文地址:
https://arxiv.org/abs/2111.09734

最后，F(xiàn)lamingo 索性把預訓練視覺編碼器和語言模型都凍結(jié)了，并在一系列廣泛的開放式視覺和語言任務上刷新了少樣本學習的最高水平。Flamingo 通過在預訓練的凍結(jié)視覺模型之上添加一個感知器重采樣器 (Perceiver Resampler) ?模塊并在凍結(jié)的預訓練 LM 層之間插入新的交叉注意層以根據(jù)視覺數(shù)據(jù)調(diào)節(jié) LM 來達到這個性能。

Flamingo 論文地址:
https://arxiv.org/abs/2204.14198

凍結(jié) PrefixLM 預訓練目標的一個很好的優(yōu)勢是它可以使用有限的對齊圖像文本數(shù)據(jù)進行訓練，這對于那些沒有對齊多模態(tài)數(shù)據(jù)集的領(lǐng)域特別有用。

3) 多模態(tài)融合與交叉注意力

使用交叉注意力機制將視覺信息直接融合到語言模型中

上圖出處:
https://www.semanticscholar.org/paper/VisualGPT%3A-Data-efficient-Adaptation-of-Pretrained-Chen-Guo/616e0ed02ca024a8c1d4b86167f7486ea92a13d9

將預訓練語言模型用于多模態(tài)任務的另一種方法是使用交叉注意機制將視覺信息直接融合到語言模型解碼器的層中，而不是使用圖像作為語言模型的附加前綴。VisualGPT、VC-GPT 和 Flamingo 使用此預訓練策略并在圖像標題任務和視覺問答任務上進行訓練。此類模型的主要目標是在把視覺信息融入文本生成能力時在這兩者間取得高效的平衡，這在沒有大型多模態(tài)數(shù)據(jù)集的情況下非常重要。

VisualGPT 論文地址:
https://arxiv.org/abs/2102.10407 VC-GPT 論文地址:
https://arxiv.org/abs/2201.12723

VisualGPT 等模型使用視覺編碼器來生成圖像嵌入，并將視覺嵌入提供給預訓練語言解碼器模塊的交叉注意層，以生成合理的標題。最近的一項工作 FIBER 將具有門控機制的交叉注意力層插入到視覺和語言的主干模型中，以實現(xiàn)更高效的多模態(tài)融合，并使能各種其他下游任務，如圖文互搜、開放域 (open-vocabulary) 目標檢測等。

FIBER 論文地址:
http://arxiv.org/abs/2206.07643

4) 掩膜語言建模及圖文匹配

另一派視覺語言模型把掩碼語言建模 (MLM) 和圖文匹配 (ITM) 目標組合起來使用，將圖像的特定部分與文本對齊，并使能各種下游任務，例如視覺問答、視覺常識推理、文搜圖以及文本引導的目標檢測。遵循這種預訓練設(shè)置的模型包括 VisualBERT、FLAVA、ViLBERT、LXMERT 和 BridgeTower。

VisualBERT 論文地址:
https://arxiv.org/abs/1908.03557 FLAVA 論文地址:
https://arxiv.org/abs/2112.04482 ViLBERT 論文地址:
https://arxiv.org/abs/1908.02265 LXMERT 論文地址:
https://arxiv.org/abs/1908.07490 BridgeTower 論文地址:
https://arxiv.org/abs/2206.08657

將圖像與文本按部分相應對齊

上圖出處:
https://arxiv.org/abs/1908.02265

讓我們解釋一下 MLM 和 ITM 目標。給定一個部分遮蓋的標題，MLM 的目標是根據(jù)相應的圖像預測遮蓋的單詞。請注意，MLM 目標需要使用帶有邊界框的標注豐富的多模態(tài)數(shù)據(jù)集，或者使用目標檢測模型為部分輸入文本生成候選目標區(qū)域。

對于 ITM 目標，給定圖像和標題對，任務是預測標題是否與圖像匹配。負樣本通常是從數(shù)據(jù)集中隨機抽取的。MLM 和 ITM 目標通常在多模態(tài)模型的預訓練期間結(jié)合使用。例如，VisualBERT 提出了一種類似 BERT 的架構(gòu)，它使用預訓練的目標檢測模型 Faster-RCNN 來檢測目標。VisualBERT 在預訓練期間結(jié)合了 MLM 和 ITM 目標，通過自注意力機制隱式對齊輸入文本的元素和相應輸入圖像中的區(qū)域。

Faster-RCNN 論文地址:
https://arxiv.org/abs/1506.01497

另一項工作 FLAVA 由一個圖像編碼器、一個文本編碼器和一個多模態(tài)編碼器組成，用于融合和對齊圖像和文本表示以進行多模態(tài)推理，所有這些都基于 transformers。為了實現(xiàn)這一點，F(xiàn)LAVA 使用了多種預訓練目標: MLM、ITM，以及掩膜圖像建模 (Masked-Image Modeling，MIM) 和對比學習。

5) 無訓練

最后，各種優(yōu)化策略旨在使用預訓練的圖像和文本模型來橋接圖像和文本表示，或者使預訓練的多模態(tài)模型能夠在無需額外訓練的情況下適應新的下游任務。

例如，MaGiC 提出通過預訓練的自回歸語言模型進行迭代優(yōu)化，為輸入圖像生成標題。為此，MaGiC 使用生成的詞的 CLIP 嵌入和輸入圖像的 CLIP 嵌入來計算基于 CLIP 的 “魔法分數(shù) (magic score) ”。

用預訓練的凍結(jié)的單模態(tài)圖像和文本編碼器創(chuàng)建一個相似性搜索空間

ASIF 提出了一種簡單的方法，可以使用相對較小的多模態(tài)數(shù)據(jù)集將預訓練的單模態(tài)圖像和文本模型轉(zhuǎn)換為多模態(tài)模型來用于圖像標題生成，無需附加訓練。ASIF 背后的關(guān)鍵直覺是相似圖像的標題也彼此相似。因此，我們可以通過使用小型數(shù)據(jù)集里的真實多模態(tài)對的來構(gòu)建一個相對表示空間，然后在該空間執(zhí)行基于相似性的搜索。

MaGic 論文地址:
https://arxiv.org/abs/2205.02655 ASIF 論文地址:
https://arxiv.org/abs/2210.01738

數(shù)據(jù)集

視覺語言模型通常根據(jù)預訓練目標在結(jié)構(gòu)各異的大型圖像和文本數(shù)據(jù)集上進行訓練。在對它們進行預訓練后，再使用特定于任務的數(shù)據(jù)集進一步針對各種下游任務進行微調(diào)。本節(jié)概述了一些用于訓練和評估視覺語言模型的流行的預訓練和下游數(shù)據(jù)集。

預訓練數(shù)據(jù)集

一般來講，我們從網(wǎng)上收集大量的多模態(tài)數(shù)據(jù)并將它們組織成圖像 / 視頻 - 文本對數(shù)據(jù)集。這些數(shù)據(jù)集中的文本數(shù)據(jù)可以是人工生成的標題、自動生成的標題、圖像元數(shù)據(jù)或簡單的目標類別標簽。此類大型數(shù)據(jù)集有 PMD 和 LAION-5B 等。PMD 數(shù)據(jù)集結(jié)合了多個較小的數(shù)據(jù)集，例如 Flickr30K、COCO 和 Conceptual Captions 數(shù)據(jù)集。COCO 檢測和圖像標題 (>330K 圖像) 數(shù)據(jù)集分別由圖像實例和其所含目標的文本標簽及描述對組成。Conceptual Captions (> 3.3M images) 和 Flickr30K (> 31K images) 數(shù)據(jù)集中的圖像以及它們的對應的用自然語言描述圖像的標題都是從網(wǎng)上爬取的。

即使是那些人工生成標題的圖像文本數(shù)據(jù)集 (例如 Flickr30K) 也存在固有的噪聲，因為用戶并不總是為其圖像編寫描述性或反應圖像內(nèi)容的標題。為了克服這個問題，LAION-5B 等數(shù)據(jù)集利用 CLIP 或其他預訓練的多模態(tài)模型來過濾噪聲數(shù)據(jù)并創(chuàng)建高質(zhì)量的多模態(tài)數(shù)據(jù)集。此外，一些視覺語言模型，如 ALIGN，提出了進一步的預處理步驟并創(chuàng)建了自己的高質(zhì)量數(shù)據(jù)集。還有些視覺語言數(shù)據(jù)集包含了視頻和文本雙模態(tài)，例如 LSVTD 和 WebVid 數(shù)據(jù)集，雖然它們規(guī)模較小。

上文提到的數(shù)據(jù)集鏈接:

PMD:
https://hf.co/datasets/facebook/pmd LAION-5B:
https://laion.ai/blog/laion-5b/ Flickr30K:
https://www.kaggle.com/datasets/hsankesara/flickr-image-dataset COCO:
https://cocodataset.org/ Conceptual Captions:
https://ai.google.com/research/ConceptualCaptions/ LSVTD:
https://davar-lab.github.io/dataset/lsvtd.html WebVid:
https://github.com/m-bain/webvid

下游數(shù)據(jù)集

預訓練視覺語言模型通常還會針對各種下游任務進行訓練，例如視覺問答、文本引導目標檢測、文本引導圖像修復、多模態(tài)分類以及各種獨立的 NLP 和計算機視覺任務。

針對問答類下游任務進行微調(diào)的模型，例如 ViLT 和 GLIP，一般使用 VQA (視覺問答) 、VQA v2、NLVR2、OKVQA、TextVQA、TextCaps 和 VizWiz 數(shù)據(jù)集。這些數(shù)據(jù)集的圖像通常都配有多個開放式問題和答案。此外，VizWiz 和 TextCaps 等數(shù)據(jù)集也可用于圖像分割和目標定位這些下游任務。其他一些有趣的多模態(tài)下游數(shù)據(jù)集有，用于多模態(tài)分類的 Hateful Memes，用于視覺蘊含預測的 SNLI-VE，以及用于視覺語言組合推理的 Winoground。

請注意，視覺語言模型也可用于各種經(jīng)典的 NLP 和計算機視覺任務，例如文本或圖像分類。此時，通常使用單模態(tài)數(shù)據(jù)集如 SST2、ImageNet-1k 來完成此類下游任務。此外，COCO 和 Conceptual Captions 等數(shù)據(jù)集也常用于預訓練模型以及標題生成等下游任務。

相關(guān)模型及論文地址:

ViLT:
https://arxiv.org/abs/2102.03334 GLIP:
https://arxiv.org/abs/2112.03857 VQA:
https://visualqa.org/ VQA v2:
https://visualqa.org/ NLVR2:
https://lil.nlp.cornell.edu/nlvr/ OKVQA:
https://okvqa.allenai.org/ TextVQA:
https://hf.co/datasets/textvqa TextCaps:
https://textvqa.org/textcaps/ VizWiz:
https://vizwiz.org/ Hateful Memes:
https://hf.co/datasets/limjiayi/hateful_memes_expanded SNLI-VE:
https://github.com/necla-ml/SNLI-VE Winoground:
https://hf.co/datasets/facebook/winoground SST2:
https://hf.co/datasets/sst2 ImageNet-1k:
https://hf.co/datasets/imagenet-1k

在 Transformers 中支持視覺語言模型

使用 Hugging Face Transformers，你可以輕松下載、運行和微調(diào)各種預訓練視覺語言模型，或者混合搭配預訓練視覺模型和預訓練語言模型來搭建你自己的模型。 Transformers 支持的一些視覺語言模型有:

CLIP:https://hf.co/docs/transformers/model_doc/clip FLAVA:?
https://hf.co/docs/transformers/main/en/model_doc/flava GIT:?
https://hf.co/docs/transformers/main/en/model_doc/git BridgeTower:https://hf.co/docs/transformers/main/en/model_doc/bridgetower GroupViT:?
https://hf.co/docs/transformers/v4.25.1/en/model_doc/groupvit BLIP:?
https://hf.co/docs/transformers/main/en/model_doc/blip OWL-ViT:?
https://hf.co/docs/transformers/main/en/model_doc/owlvit CLIPSeg:?
https://hf.co/docs/transformers/main/en/model_doc/clipseg X-CLIP:
https://hf.co/docs/transformers/main/en/model_doc/xclip VisualBERT:?
https://hf.co/docs/transformers/main/en/model_doc/visual_bert ViLT:?
https://hf.co/docs/transformers/main/en/model_doc/vilt LiT (VisionTextDualEncoder 的一個實例):?
https://hf.co/docs/transformers/main/en/model_doc/vision-text-dual-encoder TrOCR (VisionEncoderDecoderModel 的一個實例):??
https://hf.co/docs/transformers/main/en/model_doc/trocr VisionTextDualEncoder:?
https://hf.co/docs/transformers/main/en/model_doc/vision-text-dual-encoder VisionEncoderDecoderModel:? ? ?
https://hf.co/docs/transformers/main/en/model_doc/vision-encoder-decoder

這里 CLIP、FLAVA、BridgeTower、BLIP、LiT 和 VisionEncoderDecoder 等模型會生成聯(lián)合圖像 - 文本嵌入，可用之于零樣本圖像分類等下游任務，而其他模型則針對有趣的下游任務進行訓練。此外，F(xiàn)LAVA 是基于單模態(tài)和多模態(tài)兩個預訓練目標訓練的，因此可用于單模態(tài)視覺或語言任務以及多模態(tài)任務。

例如，OWL-ViT 使能了零樣本 - 文本引導目標檢測和單樣本 - 圖像引導目標檢測任務，CLIPSeg 和 GroupViT 使能了文本和圖像引導的圖像分割任務，VisualBERT、GIT 和 ViLT 使能了視覺問答以及其他各種任務。X-CLIP 是一種使用視頻和文本模態(tài)進行訓練的多模態(tài)模型，它能夠使能類似于 CLIP 的零樣本圖像分類的視頻分類任務。

幾個相關(guān)的 Hugging Face Spaces 體驗地址:

OWL-ViT:
https://hf.co/spaces/adirik/OWL-ViT CLIPSeg:
https://hf.co/spaces/nielsr/CLIPSeg ViLT:
https://hf.co/spaces/nielsr/vilt-vqa X-CLIP:??
https://hf.co/spaces/fcakyon/zero-shot-video-classification

與其他模型不同，VisionEncoderDecoderModel 是一個標準化的模型，可用于初始化任意圖像轉(zhuǎn)文本模型，這類模型可以使用任何預訓練的基于 Transformer 的視覺模型作為編碼器 (例如 ViT、BEiT、DeiT、Swin) 以及任何預訓練的語言模型作為解碼器 (例如 RoBERTa、GPT2、BERT、DistilBERT)。事實上，TrOCR 是這個標準類的一個實例。

讓我們繼續(xù)試驗其中的一些模型。我們將使用 ViLT 進行視覺問答，使用 CLIPSeg 進行零樣本圖像分割。首先，我們要安裝 Transformers: pip install transformers。

基于 ViLT 的 VQA

讓我們從 ViLT 開始，下載一個在 VQA 數(shù)據(jù)集上預訓練的模型。我們可以簡單地初始化相應的模型類然后調(diào)用 “from_pretrained ()” 方法來下載想要的 checkpoint。

from?transformers?import?ViltProcessor,?ViltForQuestionAnswering

model?=?ViltForQuestionAnswering.from_pretrained?("dandelin/vilt-b32-finetuned-vqa")

接下來，我們隨便下載一張有兩只貓的圖像，并對該圖像和我們的查詢問題進行預處理，將它們轉(zhuǎn)換為模型期望的輸入格式。為此，我們可以方便地使用相應的預處理器類 (ViltProcessor) 并使用相應 checkpoint 的預處理配置對其進行初始化。

import?requests
from?PIL?import?Image

processor?=?ViltProcessor.from_pretrained?("dandelin/vilt-b32-finetuned-vqa")

#?download?an?input?image
url?=?"http://images.cocodataset.org/val2017/000000039769.jpg"
image?=?Image.open?(requests.get?(url,?stream=True).raw)
text?=?"How?many?cats?are?there?"

#?prepare?inputs
inputs?=?processor?(image,?text,?return_tensors="pt")

最后，我們可以使用預處理后的圖像和問題作為輸入進行推理，并打印出預測答案。但是，要牢記的重要一點是確保你的文本輸入與訓練時所用的問題模板相似。你可以參考論文和數(shù)據(jù)集來了解如何生成這些問題。

論文地址:
https://arxiv.org/abs/2102.03334

import?torch

#?forward?pass
with?torch.no_grad?():
????outputs?=?model?(**inputs)

logits?=?outputs.logits
idx?=?logits.argmax?(-1).item?()
print?("Predicted?answer:",?model.config.id2label?[idx])

直截了當，對吧？讓我們用 CLIPSeg 做另一個演示，看看我們?nèi)绾斡脦仔写a執(zhí)行零樣本圖像分割。

使用 CLIPSeg 做零樣本圖像分割

我們將從初始化 CLIPSegForImageSegmentation 及其相應的預處理類開始，并加載我們的預訓練模型。

from?transformers?import?CLIPSegProcessor,?CLIPSegForImageSegmentation

processor?=?CLIPSegProcessor.from_pretrained?("CIDAS/clipseg-rd64-refined")
model?=?CLIPSegForImageSegmentation.from_pretrained?("CIDAS/clipseg-rd64-refined")

接下來，我們將使用相同的輸入圖像，并用描述待分割目標的文本來查詢模型。與其他預處理器類似，CLIPSegProcessor 將輸入轉(zhuǎn)換為模型期望的格式。由于我們要分割多個目標，我們分別對每個描述文本都使用相同的輸入圖像。

from?PIL?import?Image
import?requests

url?=?"http://images.cocodataset.org/val2017/000000039769.jpg"
image?=?Image.open?(requests.get?(url,?stream=True).raw)
texts?=?["a?cat",?"a?remote",?"a?blanket"]

inputs?=?processor?(text=texts,?images=[image]?*?len?(texts),?padding=True,?return_tensors="pt")

與 ViLT 類似，重要的是要參考原作，看看他們用什么樣的文本提示來訓練模型，以便在推理時獲得最佳性能。雖然 CLIPSeg 在簡單的對象描述 (例如 “汽車”) 上進行訓練的，但其 CLIP 主干是在設(shè)計好的文本模板 (例如 “汽車圖像”、“汽車照片”) 上預訓練的，并在隨后的訓練中凍結(jié)。輸入經(jīng)過預處理后，我們可以執(zhí)行推理以獲得每個文本查詢的二值分割圖。

上述論文地址:
https://arxiv.org/abs/2112.10003

import?torch

with?torch.no_grad?():
????outputs?=?model?(**inputs)

logits?=?outputs.logits
print?(logits.shape)
>>>?torch.Size?([3,?352,?352])

讓我們可視化一下結(jié)果，看看 CLIPSeg 的表現(xiàn)如何 (代碼改編自這篇文章)

文章鏈接:
https://hf.co/blog/clipseg-zero-shot

import?matplotlib.pyplot?as?plt

logits?=?logits.unsqueeze?(1)

_,?ax?=?plt.subplots?(1,?len?(texts)?+?1,?figsize=(3*(len?(texts)?+?1),?12))
[a.axis?('off')?for?a?in?ax.flatten?()]
ax?[0].imshow?(image)
[ax?[i+1].imshow?(torch.sigmoid?(logits?[i][0]))?for?i?in?range?(len?(texts))];
[ax?[i+1].text?(0,?-15,?prompt)?for?i,?prompt?in?enumerate?(texts)]

CLIPSeg 結(jié)果

太棒了，不是嗎？

視覺語言模型支持大量有用且有趣的用例，并不僅限于 VQA 和零樣本分割。我們鼓勵你嘗試將本節(jié)中提到的模型用于不同的應用。有關(guān)示例代碼，請參閱模型的相應文檔。

新興研究領(lǐng)域

伴隨著視覺語言模型的巨大進步，我們看到了新的下游任務和應用領(lǐng)域的出現(xiàn)，例如醫(yī)學和機器人技術(shù)。例如，視覺語言模型越來越多地被用于醫(yī)療，產(chǎn)生了諸如 Clinical-BERT 之類的工作來根據(jù)放射照片來進行醫(yī)學診斷和報告生成，以及 MedFuseNet 來用于醫(yī)學領(lǐng)域的視覺問答。

我們還看到大量將聯(lián)合視覺語言表示應用于各種領(lǐng)域的工作，如用于圖像處理 (例如，StyleCLIP、StyleMC，DiffusionCLIP)、基于文本的視頻檢索 (例如，X-CLIP) 、基于文本的操作 (例如，Text2Live 以及基于文本的 3D 形狀和紋理操作 (例如，AvatarCLIP，CLIP-NeRF, Latent3D, CLIPFace, Text2Mesh)。在類似的工作中，MVT 提出了一種聯(lián)合 3D 場景 - 文本表示模型，可用于各種下游任務，例如 3D 場景補全。

雖然機器人研究尚未大規(guī)模利用視覺語言模型，但我們看到 CLIPort 等工作利用聯(lián)合視覺語言表示進行端到端模仿學習，并宣稱比之前的 SOTA 有了很大的改進。我們還看到，大型語言模型越來越多地被用于機器人任務，例如常識推理、導航和任務規(guī)劃。例如，ProgPrompt 提出了一個使用大語言模型 (Large Language Model，LLM) 生成情境機器人任務計劃的框架。同樣，SayCan 使用 LLM 根據(jù)給定的環(huán)境及環(huán)境中物體的視覺描述，選擇最合理的動作。盡管這些進展令人印象深刻，但由于目標檢測數(shù)據(jù)集的限制，機器人研究仍然局限在有限的環(huán)境和目標集中。隨著 OWL-ViT 和 GLIP 等開放集目標檢測模型的出現(xiàn)，我們可以期待多模態(tài)模型與機器人導航、推理、操作和任務規(guī)劃框架的集成會更緊密。

新型研究領(lǐng)域的一些重要參考:

Clinical-BERT:
https://ojs.aaai.org/index.php/AAAI/article/view/20204 MedFuseNet:
https://www.nature.com/articles/s41598-021-98390-1 StyleCLIP:
https://arxiv.org/abs/2103.17249 StyleMC:
https://arxiv.org/abs/2112.08493 DiffusionCLIP:
https://arxiv.org/abs/2110.02711 X-CLIP:
https://arxiv.org/abs/2207.07285 Text2Live:
https://arxiv.org/abs/2204.02491 AvatarCLIP:
https://arxiv.org/abs/2205.08535 CLIP-NeRF:
https://arxiv.org/abs/2112.05139 Latent3D:
https://arxiv.org/abs/2202.06079 CLIPFace:
https://arxiv.org/abs/2212.01406 Text2Mesh:
https://arxiv.org/abs/2112.03221 MVT:
https://arxiv.org/abs/2204.02174 CLIPort:
https://arxiv.org/abs/2109.12098 ProgPrompt:
https://arxiv.org/abs/2209.11302 SayCan:
https://say-can.github.io/assets/palm_saycan.pdf OWL-ViT:
https://arxiv.org/abs/2205.06230 GLIP:
https://arxiv.org/abs/2112.03857

結(jié)論

近年來，多模態(tài)模型取得了令人難以置信的進步，視覺語言模型在性能、用例以及應用的多樣性方面取得了顯著的飛躍。在這篇文章中，我們討論了視覺語言模型的最新進展，可用的多模態(tài)數(shù)據(jù)集以及我們可以使用哪些預訓練策略來訓練和微調(diào)此類模型。我們還展示了如何將這些模型集成到 Transformers 中，以及如何使用它們通過幾行代碼來執(zhí)行各種任務。

編輯：黃飛

閱讀全文

編碼器(131226) 編碼器(131226)
語言模型(9992) 語言模型(9992)
Clip(6566) Clip(6566)
Transformer(5892) Transformer(5892)
OpenAI(5839) OpenAI(5839)

拆解大語言模型RLHF中的PPO算法

由于本文以大語言模型 RLHF 的 PPO 算法為主，所以希望你在閱讀前先弄明白大語言模型 RLHF 的前兩步，即 SFT Model 和 Reward Model 的訓練過程。另外因為本文不是純講強化學習的文章，所以我在敘述的時候不會假設(shè)你已經(jīng)非常了解強化學習了。

2023-12-11 18:30:49

1151

一文詳解知識增強的語言預訓練模型

等，在實際應用場景中效果不好。為了解決這個問題，將知識注入到PLMs中已經(jīng)成為一個非常活躍的研究領(lǐng)域。本次分享將介紹三篇知識增強的預訓練語言模型論文，分別通過基于知識向量、知識檢索以及知識監(jiān)督的知識注入方法來增強語言預訓練模型。

2022-04-02 17:21:43

8765

使用基于Transformers的API在CPU上實現(xiàn)LLM高效推理

英特爾 Extension for Transformers是英特爾推出的一個創(chuàng)新工具包，可基于英特爾架構(gòu)平臺，尤其是第四代英特爾至強可擴展處理器（代號 SapphireRapids，SPR）顯著加速基于Transformers的大語言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

大語言模型背后的Transformer，與CNN和RNN有何不同

? 電子發(fā)燒友網(wǎng)報道（文/李彎彎）近年來，隨著大語言模型的不斷出圈，Transformer這一概念也走進了大眾視野。Transformer是一種非常流行的深度學習模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關(guān)系

電子發(fā)燒友網(wǎng)報道（文/李彎彎）大語言模型（LLM）是基于海量文本數(shù)據(jù)訓練的深度學習模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

了解AI人工智能背后的科學?

√情緒分析例如，自駕駕駛汽車需要計算機具有視覺感知能力，另外像Siri這樣的應用程序需要具有語音識別能力。AI背后的大腦包括機器學習，深度學習和自然語言處理等建模技術(shù)。那我們從機器學習開始學習吧！機器

2017-09-25 10:03:05

利用MATLAB的simulink建立仿真模型

利用MATLAB的simulink建立仿真模型，與stm32cubemx搭建數(shù)據(jù)鏈，通過simulink搭建的模型生成工程！（基本不用修改底層代碼）【轉(zhuǎn)載自】

2021-08-17 07:11:27

利用simulink設(shè)計四則運算仿真模型

整體思路利用simulink設(shè)計四則運算仿真模型，借助simulink的代碼生成工具生成c語言代碼。同時介紹STM32擴展工具的安裝，使用。所需工具MATLAB 2018bSTM32硬件支持工具下載連接：（用于配置STM32資源）

2021-08-17 09:33:39

利用軸對稱的錐型喇叭天線模型

我們在之前的博客中已經(jīng)介紹了怎么利用對稱、反對稱，以及周期性邊界條件來節(jié)省電磁模型的建模時間。今天，我們將為您展示一個利用軸對稱建立的模型 — 錐型喇叭天線模型。利用二維軸對稱節(jié)省建模時間盡管

2019-06-13 07:34:50

LabVIEW進行癌癥預測模型研究

，然后將得到的特征向量輸入到SVM中進行分類。 LabVIEW是一種視覺編程語言，與傳統(tǒng)的文本編程語言不同，更適合于進行復雜數(shù)據(jù)分析和預測模型的開發(fā)。 LabVIEW使用數(shù)據(jù)流模型，可以并行處理多個過程

2023-12-13 19:04:23

【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ)，并開展大模型實踐，復旦大學張奇教授團隊結(jié)合他們在自然語言處理領(lǐng)域的研究經(jīng)驗，以及分布式系統(tǒng)和并行計算的教學經(jīng)驗，在

2024-03-11 15:16:39

關(guān)于自然語言處理之54 語言模型(自適應)

自然語言處理——54 語言模型(自適應)

2020-04-09 08:20:30

如何利用MATLAB的simulink建立仿真模型呢

如何利用MATLAB的simulink建立仿真模型呢？并與stm32cubemx搭建數(shù)據(jù)鏈呢？

2021-11-18 07:17:46

如何利用Python語言來控制電機

如何利用Python語言來控制電機？如何利用L298N驅(qū)動板來控制電機？

2021-09-22 08:32:48

如何利用基于模型的設(shè)計開發(fā)軟件定義無線電？

2021-05-20 06:04:31

學習機器視覺要學習哪一門語言？

馬上要進行機械視覺的學習。想問一下大佬們關(guān)于機械視覺，我要學習哪一門語言？c 還是Python 還是Java或者說是嵌入式。選哪一個？對以后機械視覺的課題研究幫助更大？在線等，很急

2019-04-15 15:30:38

實戰(zhàn)視覺圖像處理：LabVIEW二值化結(jié)果顯示與對比

labview中如何調(diào)用tensorflow進行深度學習模型的訓練和調(diào)用，推出一整套完整的簡易學的視頻課程，使學員能在沒有任何深度學習理論基礎(chǔ)，不懂python編程語言的前提下，使用labview訓練

2020-12-09 14:53:37

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

2020-04-16 11:11:25

計算機視覺論文速覽

AI視野·今日CS.CV 計算機視覺論文速覽transformer、新模型、視覺語言模型、多模態(tài)、clip、視角合成

2021-08-31 08:46:46

請問怎樣利用在線機器視覺技術(shù)來預防pcb缺陷？

怎樣利用在線機器視覺技術(shù)來預防pcb缺陷？

2021-04-25 08:46:25

通過Cortex來非常方便的部署PyTorch模型

到軟件中。如何從“跨語言語言模型”轉(zhuǎn)換為谷歌翻譯？在這篇博客文章中，我們將了解在生產(chǎn)環(huán)境中使用 PyTorch 模型意味著什么，然后介紹一種允許部署任何 PyTorch 模型以便在軟件中使用的方法。在生

2022-11-01 15:25:02

龍哥手把手教你學視覺-深度學習YOLOV5篇

利用labview部署yolov5導出的模型，能利用攝像頭動態(tài)檢測輸出目標檢測結(jié)果。根據(jù)工業(yè)視覺外觀檢測的速度和準確性要求，龍哥視覺結(jié)合labview編程平臺推出了labview+yolov5訓練和模型

2021-09-03 09:39:28

基于視覺模型的抗合謀數(shù)字指紋

本文提出了一種基于視覺系統(tǒng)模型的抗合謀指紋算法，并對各種合謀攻擊的有效性進行了討論與分析。所提出的算法充分利用了雙正交小波多分辨率的優(yōu)

2009-09-05 09:50:48

目標跟蹤的視覺注意計算模型

目標跟蹤的視覺注意計算模型：借鑒心理學中有關(guān)視覺注意的研究成果，提出一種應用于視頻圖像序列的注意焦點計算模型。針對Itti 模型算法計算復雜度高、運算速度慢等缺點，通

2010-01-04 12:20:04

BJDEEN PULSE TRANSFORMERS

aboutthe need for versatile pulse transformers that meet all the electricalrequirements of Manchester II serial biphas

2010-06-11 08:40:18

利用LINGO開發(fā)高級模型選講

2010-11-13 16:17:13

唇語識別中的話題相關(guān)語言模型研究_王淵

2017-03-19 11:28:16

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發(fā)包有哪些？

2017-12-28 15:42:30

5382

視覺詞袋模型生成方法

構(gòu)建視覺詞典是視覺詞袋模型中的關(guān)鍵步驟，目前大多數(shù)視覺詞典是基于k-means及其改進算法聚類生成。但由于k-means聚類的局限性以及樣本空間結(jié)構(gòu)的復雜性與高維性，該方式構(gòu)建的視覺詞典存在區(qū)分

2018-03-20 15:09:54

橋接視覺與語言的研究綜述

近年來，由于深度學習、計算機視覺和自然語言處理等多學科領(lǐng)域的興趣激增，視覺和語言任務的橋接得到了顯著的發(fā)展。

2019-08-09 18:32:01

2380

機器視覺用什么語言開發(fā)_機器視覺用什么硬件

　目前可以開發(fā)機器視覺的相關(guān)計算機語言有C++，C#，JAVA，PYTHON等，甚至簡單的PHP和JAVASCRIPT也可以開發(fā)相關(guān)的功能。

2020-03-26 09:29:42

8551

視覺信號輔助的自然語言文法學習

學習中視覺信號不足的問題。我們提出在語言模型（Language Modeling）上對概率文法模型進行額外優(yōu)化。我們通過實

2021-01-05 14:14:34

1816

微軟視覺語言模型有顯著超越人類的表現(xiàn)

視覺語言（Vision-Language，VL）系統(tǒng)允許為文本查詢搜索相關(guān)圖像（或反之），并使用自然語言描述圖像的內(nèi)容。一般來說，一個VL系統(tǒng)使用一個圖像編碼模塊和一個視覺語言融合模塊。微軟研究部門

2021-01-19 14:32:09

1476

從淺入深學習Transformer的資料匯總

Transformers 加速了自然語言處理(NLP)任務的新技術(shù)和模型的發(fā)展。雖然它主要用于NLP任務，但現(xiàn)在它被大量應用于處理計算機視覺任務。這使它成為一個非常重要的技術(shù)。

2021-03-05 15:56:18

1915

基于計算機視覺和NLP的跨媒體問答與推理

基于視覺和語言的跨媒體問答與推理是人工智能領(lǐng)域的研究熱點其目的是基于給定的視覺內(nèi)容和相關(guān)問題，模型能夠返回正確的答案。隨著深度學習的飛速發(fā)展及其在計算杋視覺和自然語言處理領(lǐng)域的廣泛應用，基于視覺

2021-04-08 10:25:33

如何在3D機器視覺應用中利用DLP？

TI為機器視覺攝影鏡頭提供了一些非常不錯的參考設(shè)計。TI為3D機器視覺提供的一種獨特的解決方案，利用了其數(shù)字光源處理器（DLP）技術(shù)。透過圖5中的例子可以看到，如何可在3D機器視覺應用中利用DLP。

2021-05-01 09:28:00

2763

基于預訓練視覺-語言模型的跨模態(tài)Prompt-Tuning

、新加坡國立大學鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要預訓練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數(shù)據(jù)中顯示出有前景的能力，促進

2021-10-09 15:10:42

2926

ACL2021的跨視覺語言模態(tài)論文之跨視覺語言模態(tài)任務與方法

來自：復旦DISC 引言本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態(tài)的論文。這三篇文章分別介紹了如何在圖像描述任務中生成契合用戶意圖的圖像描述、端對端的視覺語言預訓練模型和如何生成包含

2021-10-13 10:48:27

2230

用于語言和視覺處理的高效 Transformer能在多種語言和視覺任務中帶來優(yōu)異效果

白皮書《Transformer-LS：用于語言和視覺處理的高效 Transformer》中提出了“長-短 Transformer” （Transformer-LS），這是一種高效的 Transformer 架構(gòu)，用于為語言和視覺任務模擬中具有線性復雜度的長序列。

2021-12-28 10:42:18

1309

Transformers研究方向

要說 BERT 為什么性能卓越，主要是它改變了 NLP 模型的訓練方式。先在大規(guī)模語料上訓練出一個語言模型，然后將這個模型用在閱讀理解/情感分析/命名實體識別等下游任務上

2022-03-30 16:50:35

1209

一種基于亂序語言模型的預訓練模型-PERT

由于亂序語言模型不使用[MASK]標記，減輕了預訓練任務與微調(diào)任務之間的gap，并由于預測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預訓練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

OpenCV中支持的非分類與檢測視覺模型

前面給大家分別匯總了OpenCV中支持的圖像分類與對象檢測模型，視覺視覺任務除了分類與檢測還有很多其他任務，這里我們就來OpenCV中支持的非分類與檢測的視覺模型匯總一下。

2022-08-19 09:10:03

890

視覺語言導航領(lǐng)域任務、方法和未來方向的綜述

視覺語言導航（VLN）是一個新興的研究領(lǐng)域，旨在構(gòu)建一種可以用自然語言與人類交流并在真實的3D環(huán)境中導航的具身代理，與計算機視覺、自然語言處理和機器人等研究領(lǐng)域緊密關(guān)聯(lián)。

2022-09-20 14:30:30

2612

NVIDIA NeMo最新語言模型服務幫助開發(fā)者定制大規(guī)模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務幫助開發(fā)者定制大規(guī)模語言模型；NVIDIA BioNeMo 服務幫助研究人員生成和預測分子、蛋白質(zhì)及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平臺訓練大型語言模型

韓國先進的移動運營商構(gòu)建包含數(shù)百億個參數(shù)的大型語言模型，并使用 NVIDIA DGX SuperPOD 平臺和 NeMo Megatron 框架訓練該模型。

2022-09-27 09:24:30

915

借助機器翻譯來生成偽視覺-目標語言對進行跨語言遷移

然而之前的基于機器翻譯的CCR工作大多忽略了這個問題，它們通常使用大規(guī)模的預訓練模型在通過機器翻譯得到的大規(guī)模多語言視覺-語言語料庫上進行大規(guī)模預訓練，并且只關(guān)注于視覺-目標語言數(shù)據(jù)對之間的對齊。

2022-10-14 14:59:04

608

深度學習：transformers的近期工作成果綜述

transformers的近期工作成果綜述基于 transformer 的雙向編碼器表示(BERT)和微軟的圖靈自然語言生成(T-NLG)等模型已經(jīng)在機器學習世界中廣泛的用于自然語言處理(NLP

2022-10-19 10:04:21

418

如何充分挖掘預訓練視覺-語言基礎(chǔ)大模型的更好零樣本學習能力

因此，合適的prompt對于模型的效果至關(guān)重要。大量研究表明，prompt的微小差別，可能會造成效果的巨大差異。研究者們就如何設(shè)計prompt做出了各種各樣的努力——自然語言背景知識的融合、自動生成prompt的搜索、不再拘泥于語言形式的prompt探索等等。

2022-10-19 14:39:36

1066

一種新的基于視覺語言模型的零鏡頭分類框架

人們很容易用文字來描述類別的視覺特征，并利用這些文字描述來輔助感知，用于分類檢測等各種感知任務。

2022-10-20 09:56:24

697

CogBERT：腦認知指導的預訓練語言模型

另一方面，從語言處理的角度來看，認知神經(jīng)科學研究人類大腦中語言處理的生物和認知過程。研究人員專門設(shè)計了預訓練的模型來捕捉大腦如何表示語言的意義。之前的工作主要是通過明確微調(diào)預訓練的模型來預測語言誘導的大腦記錄，從而納入認知信號。

2022-11-03 15:07:08

707

基于視頻語言模型LiteVL的無參的特征池化方法

我們提出了LiteVL，這是一種視頻語言模型，它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經(jīng)學習的對齊。然后，我們提出

2022-12-05 10:54:49

413

介紹幾篇EMNLP'22的語言模型訓練方法優(yōu)化工作

——RetroMAE: Pre-training Retrieval-oriented Transformers via Masked Auto-Encoder；針對事實知識提取優(yōu)化語言模型：在語言模型

2022-12-22 16:14:56

679

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學合作組織，致力于開發(fā)大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數(shù)

2023-01-17 14:29:53

692

視覺-語言預訓練入門指南

視覺-語言 (Vision-Language, VL) 是計算機視覺和自然語言處理這兩個研究領(lǐng)域之間形成的交叉領(lǐng)域，旨在賦予 AI 系統(tǒng)從多模態(tài)數(shù)據(jù)中學習有效信息的能力。

2023-02-06 10:18:50

544

利用視覺+語言數(shù)據(jù)增強視覺特征

傳統(tǒng)的多模態(tài)預訓練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來同時學習視覺+語言的聯(lián)合特征。但是關(guān)注如何利用視覺+語言數(shù)據(jù)提升視覺任務（多模態(tài)->單模態(tài)）上性能的工作并不多。本文旨在針對上述問題提出一種簡單高效的方法。

2023-02-13 13:44:05

727

多維度剖析視覺-語言訓練的技術(shù)路線

視覺-語言 (Vision-Language, VL) 是計算機視覺和自然語言處理這兩個研究領(lǐng)域之間形成的交叉領(lǐng)域，旨在賦予 AI 系統(tǒng)從多模態(tài)數(shù)據(jù)中學習有效信息的能力。受 NLP 預訓練語言模型

2023-02-23 11:15:54

608

大型語言模型有哪些用途？

大型語言模型能識別、總結(jié)、翻譯、預測和生成文本及其他內(nèi)容。 AI 應用在大型語言模型的幫助下，可用于解決總結(jié)文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學習算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結(jié)、翻譯、預測和生成文本及其他內(nèi)容。

2023-03-08 13:57:00

6989

在視覺語言表示學習中建立編碼器間的橋梁

提出了一個簡單有效的視覺語言模型架構(gòu)，BridgeTower，通過在頂層單模態(tài)層和每個跨模態(tài)層之間建立橋梁，成功地引入了不同語義層次的視覺和文本表示，從而提高了跨模態(tài)編碼器中注意力頭的多樣性，并在各種任務上實現(xiàn)了突出的性能改進。

2023-04-14 17:33:46

415

各種大語言模型是徹底被解封了

基礎(chǔ) LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結(jié)構(gòu)，Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

2023-04-20 11:25:44

1071

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構(gòu)的大語言模型，近年迭代演進迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務之一。GPT是基于Transformer架構(gòu)衍生出的生成式預訓練的單向語言模型，通過對大量語料數(shù)據(jù)進行無監(jiān)督學習

2023-04-28 10:01:59

585

利用大語言模型做多模態(tài)任務

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數(shù)據(jù)。

2023-05-10 16:53:15

701

PyTorch教程9.3.之語言模型

電子發(fā)燒友網(wǎng)站提供《PyTorch教程9.3.之語言模型.pdf》資料免費下載

2023-06-05 09:59:00

PyTorch教程-9.3. 語言模型

9.3. 語言模型? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

基于預訓練模型和語言增強的零樣本視覺學習

在一些非自然圖像中要比傳統(tǒng)模型表現(xiàn)更好 CoOp 增加一些 prompt 會讓模型能力進一步提升怎么讓能力更好？可以引入其他知識，即其他的預訓練模型，包括大語言模型、多模態(tài)模型也包括

2023-06-15 16:36:11

277

一文讀懂大語言模型

本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統(tǒng)(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一種基于*大語言模型(Large Language Model)* 的對話式AI聊天機器人。

2023-06-16 09:59:04

1036

在線研討會 | 釋放 Vision Transformers、NVIDIA TAO 和最新一代 NVIDIA GPU 的潛力

研討會時間： 2023?年?6 月 29 日（周四）上午 11:00? （北京時間） Vision Transformers（ViTs）正在徹底改變視覺 AI 應用。與卷積神經(jīng)網(wǎng)絡(luò)（ CNN

2023-06-16 11:45:02

321

基于 Transformers 的編碼器-解碼器模型

基于 transformer 的編碼器-解碼器模型是表征學習和模型架構(gòu) 這兩個領(lǐng)域多年研究成果的結(jié)晶。本文簡要介紹了神經(jīng)編碼器-解碼器模型的歷史，更多背景知識，建議讀者閱讀

2023-06-16 16:53:21

432

基于Transformer的大型語言模型（LLM）的內(nèi)部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內(nèi)部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（LLM）在使用和部署方面的不斷增加，打開黑箱并了解它們的內(nèi)部

2023-06-25 15:08:49

991

「悟道·視界」視覺大模型系列，6項領(lǐng)先成果技術(shù)詳解

日前，智源「悟道·視界」通用視覺大模型系列，帶來計算機視覺多任務處理能力方面的6項國際領(lǐng)先技術(shù)，迎接通用視覺智能曙光降臨，包括：在多模態(tài)序列中補全一切的多模態(tài)大模型?Emu 最強十億級視覺基礎(chǔ)模型

2023-06-27 16:40:25

416

2D Transformer 可以幫助3D表示學習嗎？

預訓練的2D圖像或語言Transformer：作為基礎(chǔ)Transformer模型，具有豐富的特征表示能力。作者選擇了先進的2D Transformer模型作為基礎(chǔ)模型，例如Vision Transformers (ViTs) 或者語言模型（如BERT）。

2023-07-03 10:59:43

387

大型語言模型的應用

?? 大型語言模型（LLM）是一種深度學習算法，可以通過大規(guī)模數(shù)據(jù)集訓練來學習識別、總結(jié)、翻譯、預測和生成文本及其他內(nèi)容。大語言模型（LLM）代表著 AI 領(lǐng)域的重大進步，并有望通過習得的知識改變

2023-07-05 10:27:35

1463

語言模型的發(fā)展歷程基于神經(jīng)網(wǎng)絡(luò)的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內(nèi)容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務。

2023-07-14 11:45:40

454

語言模型做先驗，統(tǒng)一強化學習智能體，DeepMind選擇走這條通用AI之路

在智能體的開發(fā)中，強化學習與大語言模型、視覺語言模型等基礎(chǔ)模型的進一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。一直以來，DeepMind 引領(lǐng)了強化學習（RL）智能

2023-07-24 16:55:02

296

清華大學大語言模型綜合性能評估報告發(fā)布！哪個模型更優(yōu)秀？

近日，清華大學新聞與傳播學院發(fā)布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領(lǐng)域的一大熱點。它們

2023-08-10 08:32:01

607

檢索增強的語言模型方法的詳細剖析

? 本篇內(nèi)容是對于ACL‘23會議上陳丹琦團隊帶來的Tutorial所進行的學習記錄，以此從問題設(shè)置、架構(gòu)、應用、挑戰(zhàn)等角度全面了解檢索增強的語言模型，作為對后續(xù)工作的準備與入門，也希望能給大家?guī)?/div>

2023-08-21 09:58:01

1234

Transformers是什么意思？人工智能transformer怎么翻譯？

Transformers是什么意思？transformer怎么翻譯？人工智能transformer怎么翻譯？ Transformers是一個包含自然語言處理中的基礎(chǔ)技術(shù)的深度神經(jīng)網(wǎng)絡(luò)。它可以將源語言

2023-08-22 15:59:24

1945

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

最近，AI大模型測評火熱，尤其在大語言模型領(lǐng)域，“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯(lián)合打造的大語言模型“書生·浦語”（InternLM）也表現(xiàn)出色，分別在智源FlagEval

2023-08-25 13:00:02

315

阿里云開源視覺語言大模型Qwen-VL ，支持圖文雙模態(tài)輸入

據(jù)介紹，Qwen-VL 是支持中英文等多種語言的視覺語言（Vision Language，VL）模型。相較于此前的 VL 模型，Qwen-VL 除了具備基本的圖文識別、描述、問答及對話能力之外，還新增了視覺定位、圖像中文字理解等能力。

2023-08-25 15:12:10

634

OpenVINO賦能BLIP實現(xiàn)視覺語言AI邊緣部署

人類通過視覺和語言感知世界。人工智能的一個長期目標是構(gòu)建智能體，通過視覺和語言輸入來理解世界，并通過自然語言與人類交流。比如，在《幾行代碼加速 Stable Diffusion

2023-09-01 10:26:16

2160

訓練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對訓練的工作負載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

OpenVIN賦能BLIP實現(xiàn)視覺語言AI邊緣部署

2023-09-04 10:54:24

9940

OpenVINO? 賦能 BLIP 實現(xiàn)視覺語言 AI 邊緣部署

圖》中，我們介紹了利用OpenVINO運行StableDiffusion模型，快速實現(xiàn)文生圖應用。讓人人可以成為繪畫大師，利用AI隨心作畫。隨著計算機視覺和自然語

2023-09-04 16:21:36

368

騰訊發(fā)布混元大語言模型

騰訊發(fā)布混元大語言模型騰訊全球數(shù)字生態(tài)大會上騰訊正式發(fā)布了混元大語言模型，參數(shù)規(guī)模超千億，預訓練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創(chuàng)作能力、任務執(zhí)行

2023-09-07 10:23:54

815

虹科分享 | 谷歌Vertex AI平臺使用Redis搭建大語言模型

基礎(chǔ)模型和高性能數(shù)據(jù)層這兩個基本組件始終是創(chuàng)建高效、可擴展語言模型應用的關(guān)鍵，利用Redis搭建大語言模型，能夠?qū)崿F(xiàn)高效可擴展的語義搜索、檢索增強生成、LLM 緩存機制、LLM記憶和持久

2023-09-18 11:26:49

316

揭秘編碼器與解碼器語言模型

Transformer 架構(gòu)的問世標志著現(xiàn)代語言大模型時代的開啟。自 2018 年以來，各類語言大模型層出不窮。

2023-10-24 11:42:05

337

在線研討會 | 利用生成式 AI 改變視覺 AI 應用

研討會時間： 2023 年 11 月 3 日（周五）上午?11:00? （北京時間）生成式 AI、大語言模型（LLM）和視覺 Transformer 提供了前所未有的功能，世界各地的開發(fā)者們都在

2023-11-01 20:25:03

298

基于檢索的大語言模型簡介

簡介章節(jié)講的是比較基礎(chǔ)的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

282

如何給OriginBot安裝大語言模型

安裝 ①安裝 transformers pip3 install transformers -i https://mirrors.aliyun.com/pypi/simple/ 安裝的時候會提示部分依賴

2023-11-20 15:46:32

164

哈工大提出Myriad：利用視覺專家進行工業(yè)異常檢測的大型多模態(tài)模型

最近，大型多模態(tài)（即視覺和語言）模型（LMM）在圖像描述、視覺理解、視覺推理等多種視覺任務上表現(xiàn)出了卓越的感知能力，使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而，現(xiàn)有的通用 LMM 中缺乏有關(guān)異常檢測的知識，而訓練特定的 LMM 進行異常檢測需要大量的注釋數(shù)據(jù)和大量的計算資源。

2023-11-21 16:08:12

560

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數(shù)十億參數(shù)（B+）的預訓練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

大語言模型概述

在科技飛速發(fā)展的當今時代，人工智能技術(shù)成為社會進步的關(guān)鍵推動力之一。在廣泛關(guān)注的人工智能領(lǐng)域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發(fā)展歷史大語言模型是一類基于深度學習技術(shù)

2023-12-21 17:53:59

555

一文了解3D視覺和2D視覺的區(qū)別

一文了解3D視覺和2D視覺的區(qū)別 3D視覺和2D視覺是兩種不同的視覺模式，其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細闡述這些區(qū)別，并解釋為什么3D視覺相比2D視覺更具吸引力和影響力。首先

2023-12-25 11:15:10

366

大語言模型使用指南

在信息爆炸的時代，我們渴望更智能、更高效的語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機會。這不僅是技術(shù)的進步，更是人與機器共舞的一幕。本篇文章將帶你走進這個奇妙的語言王國

2023-12-29 14:18:59

276

2023年大語言模型(LLM)全面調(diào)研：原理、進展、領(lǐng)跑者、挑戰(zhàn)、趨勢

大型語言模型(LLM)是基于人工智能的先進模型，經(jīng)過訓練，它可以密切反映人類自然交流的方式處理和生成人類語言。這些模型利用深度學習技術(shù)和大量訓練數(shù)據(jù)來全面理解語言結(jié)構(gòu)、語法、上下文和語義。

2024-01-03 16:05:25

441

機器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

2024-01-19 11:43:08

106

Transformers的功能概述

近年來，我們聽說了很多關(guān)于Transformers的事情，并且在過去的幾年里，它們已經(jīng)在NLP領(lǐng)域取得了巨大成功。Transformers是一種使用注意力機制(Attention)顯著改進深度學習

2024-01-23 10:15:25

165

字節(jié)發(fā)布機器人領(lǐng)域首個開源視覺-語言操作大模型，激發(fā)開源VLMs更大潛能

對此，ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。使用簡單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM，從而適用于語言交互的機器人操作任務。

2024-01-23 16:02:17

169

大語言模型中的語言與知識：一種神秘的分離現(xiàn)象

自然語言處理領(lǐng)域存在著一個非常有趣的現(xiàn)象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊關(guān)系。

2024-02-20 14:53:06

已全部加載完成

搜索歷史

如何利用Transformers了解視覺語言模型

評論