那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta開(kāi)源ImageBind新模型,超越GPT-4,對(duì)齊文本、音頻等6種模態(tài)!

AI科技大本營(yíng) ? 來(lái)源:CSDN ? 2023-05-12 15:47 ? 次閱讀

據(jù)外媒報(bào)道,上周四,Google、微軟、OpenAI 幾家公司的 CEO 受邀去白宮,共論關(guān)于人工智能發(fā)展的一些重要問(wèn)題。然而,讓人有些想不通的是,深耕 AI 多年的 Meta 公司(前身為 Facebook)卻沒(méi)有在受邀之列。

沒(méi)多久,更讓 Meta CEO 扎克伯格扎心的是,一位官員對(duì)此解釋稱(chēng),本次會(huì)議“側(cè)重的是目前在 AI 領(lǐng)域,尤其是面向消費(fèi)者的產(chǎn)品方面,處于領(lǐng)先地位的公司。”

顯然對(duì)于這樣的解釋?zhuān)⒉荒茏屓诵欧吘惯@一次受邀名單中還有一家由 OpenAI 的前成員創(chuàng)立的美國(guó)人工智能初創(chuàng)和公益公司 Anthropic。

似乎是為了出一口“氣”,也為證明自家的實(shí)力,相比 OpenAI、Google 推出閉源的 GPT-4、Bard 模型,Meta 在開(kāi)源大模型的路上一騎絕塵,繼兩個(gè)月前開(kāi)源 LLaMA大模型之后,再次于5 月 9 日開(kāi)源了一個(gè)新的 AI 模型——ImageBind(https://github.com/facebookresearch/ImageBind),短短一天時(shí)間,收獲了 1.6k 個(gè) Star。

這個(gè)模型與眾不同之處便是可以將多個(gè)數(shù)據(jù)流連接在一起,包括文本、圖像/視頻音頻、視覺(jué)、IMU、熱數(shù)據(jù)和深度(Depth)數(shù)據(jù)。這也是業(yè)界第一個(gè)能夠整合六種類(lèi)型數(shù)據(jù)的模型。

4e2e0200-ef4d-11ed-90ce-dac502259ad0.gif

4f842c2e-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 用圖像對(duì)齊六模態(tài),旨在實(shí)現(xiàn)感官大一統(tǒng)

簡(jiǎn)單來(lái)看,相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對(duì)的圖像生成器,ImageBind 更像是廣撒網(wǎng),可以連接文本、圖像/視頻、音頻、3D 測(cè)量(深度)、溫度數(shù)據(jù)(熱)和運(yùn)動(dòng)數(shù)據(jù)(來(lái)自 IMU),而且它無(wú)需先針對(duì)每一種可能性進(jìn)行訓(xùn)練,直接預(yù)測(cè)數(shù)據(jù)之間的聯(lián)系,類(lèi)似于人類(lèi)感知或者想象環(huán)境的方式。

4f9daeb0-ef4d-11ed-90ce-dac502259ad0.png

對(duì)此,Meta 在其官方博客中也說(shuō)道,“ImageBind 可以勝過(guò)之前為一種特定模式單獨(dú)訓(xùn)練的技術(shù)模型。但最重要的是,它能使機(jī)器更好地一起分析許多不同形式的信息,從而有助于推進(jìn)人工智能。”

打個(gè)比喻,人類(lèi)可以聽(tīng)或者閱讀一些關(guān)于描述某個(gè)動(dòng)物的文本,然后在現(xiàn)實(shí)生活中看到就能認(rèn)識(shí)。

你站在繁忙的城市街道等有刺激性環(huán)境中,你的大腦會(huì)(很大程度上應(yīng)該是無(wú)意識(shí)地)吸收景象、聲音和其他感官體驗(yàn),以此推斷有關(guān)來(lái)往的汽車(chē)、行人、高樓、天氣等信息。

在很多場(chǎng)景中,一個(gè)單一的聯(lián)合嵌入空間包含許多不同種類(lèi)的數(shù)據(jù),如聲音、圖像、視頻等等。

如今,基于 ImageBind 這樣的模型可以讓機(jī)器學(xué)習(xí)更接近人類(lèi)學(xué)習(xí)。

在官方博客中,Meta 分享 ImageBind 是通過(guò)圖像的綁定屬性,只要將每個(gè)模態(tài)的嵌入與圖像嵌入對(duì)齊,即圖像與各種模式共存,可以作為連接這些模式的橋梁,例如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來(lái),或者利用從帶有 IMU 傳感器的可穿戴相機(jī)中捕獲的視頻數(shù)據(jù)將運(yùn)動(dòng)與視頻連接起來(lái)。

4fea7c68-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 整體概覽

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)到的視覺(jué)表征可以作為目標(biāo)來(lái)學(xué)習(xí)不同模態(tài)的特征。這使得 ImageBind 能夠?qū)R與圖像共同出現(xiàn)的任何模式,自然地將這些模式相互對(duì)齊。與圖像有強(qiáng)烈關(guān)聯(lián)的模態(tài),如熱學(xué)和深度,更容易對(duì)齊。非視覺(jué)的模態(tài),如音頻和 IMU,具有較弱的關(guān)聯(lián)性。

ImageBind 顯示,圖像配對(duì)數(shù)據(jù)足以將這六種模式綁定在一起。該模型可以更全面地解釋內(nèi)容,使不同的模式可以相互 "對(duì)話(huà)",并在不觀察它們的情況下找到聯(lián)系。

例如,ImageBind 可以在沒(méi)有看到它們?cè)谝黄鸬那闆r下將音頻和文本聯(lián)系起來(lái)。這使得其他模型能夠 "理解 "新的模式,而不需要任何資源密集型的訓(xùn)練。

500ec8ac-ef4d-11ed-90ce-dac502259ad0.png

不過(guò),該模型目前只是一個(gè)研究項(xiàng)目,沒(méi)有直接的消費(fèi)者和實(shí)際應(yīng)用,但是它展現(xiàn)了生成式 AI 在未來(lái)能夠生成沉浸式、多感官內(nèi)容的方式,也表明了 Meta 正在以與 OpenAI、Google 等競(jìng)爭(zhēng)對(duì)手不同的方式,趟出一條屬于開(kāi)源大模型的路。

50381c20-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 強(qiáng)大的背后

與此同時(shí),作為一種多模態(tài)的模型,ImageBind 還加入了 Meta近期開(kāi)源的一系列 AI 工具,包括DINOv2計(jì)算機(jī)視覺(jué)模型,這是一種不需要微調(diào)訓(xùn)練高性能計(jì)算機(jī)視覺(jué)模型的新方法;以及 Segment Anything(SAM),這是一種通用分割模型,可以根據(jù)任何用戶(hù)的提示,對(duì)任何圖像中的任何物體進(jìn)行分割。

ImageBind 是對(duì)這些模型的補(bǔ)充,因?yàn)樗鼘?zhuān)注于多模態(tài)表示學(xué)習(xí)。它試圖為多種模式學(xué)習(xí)提供一個(gè)統(tǒng)一的特征空間,包括但不限于圖像和視頻。在未來(lái), ImageBind 可以利用 DINOv2 的強(qiáng)大視覺(jué)特征來(lái)進(jìn)一步提高其能力。

505233da-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 的性能

針對(duì) ImageBind 性能,Meta 研究科學(xué)家還發(fā)布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)論文,分享了技術(shù)細(xì)則。

506a7652-ef4d-11ed-90ce-dac502259ad0.png

通過(guò)分析表明,ImageBind 模型的性能實(shí)際上可以通過(guò)使用很少的訓(xùn)練實(shí)例來(lái)提高。這個(gè)模型有新的出現(xiàn)的能力,或者說(shuō)是擴(kuò)展行為--也就是說(shuō),在較小的模型中不存在的能力,但在較大的版本中出現(xiàn)。這可能包括識(shí)別哪種音頻適合某張圖片或從照片中預(yù)測(cè)場(chǎng)景的深度。

而 ImageBind 的縮放行為隨著圖像編碼器的強(qiáng)度而提高。

換句話(huà)說(shuō),ImageBind 對(duì)準(zhǔn)各種模式的能力隨著視覺(jué)模型的強(qiáng)度和大小而增加。這表明,較大的視覺(jué)模型有利于非視覺(jué)任務(wù),如音頻分類(lèi),而且訓(xùn)練這種模型的好處超出了計(jì)算機(jī)視覺(jué)任務(wù)。

在實(shí)驗(yàn)中,研究人員使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類(lèi)任務(wù)中的工作進(jìn)行了比較。

結(jié)果顯示,ImageBind 可以用于少量樣本的音頻和深度分類(lèi)任務(wù),并且優(yōu)于之前定制的方法。

5074f2bc-ef4d-11ed-90ce-dac502259ad0.png

最終,Meta 認(rèn)為ImageBind 這項(xiàng)技術(shù)最終會(huì)超越目前的六種“感官”,其在博客上說(shuō)道,“雖然我們?cè)诋?dāng)前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺(jué)、語(yǔ)音、嗅覺(jué)和大腦 fMRI 信號(hào)——將使更豐富的以人為中心的人工智能模型成為可能。”

508760d2-ef4d-11ed-90ce-dac502259ad0.png

ImageBind 可以用來(lái)干什么?

如果說(shuō) ChatGPT 可以充當(dāng)搜索引擎、問(wèn)答社區(qū),Midjourney 可以被用來(lái)當(dāng)畫(huà)畫(huà)工具,那么用 ImageBind 可以做什么?

根據(jù)官方發(fā)布的 Demo 顯示,它可以直接用圖片生成音頻:

509ba04c-ef4d-11ed-90ce-dac502259ad0.png

也可以音頻生成圖片:

51069f46-ef4d-11ed-90ce-dac502259ad0.png

亦或者直接給一個(gè)文本,就可以檢索相關(guān)的圖片或者音頻內(nèi)容:

5112d252-ef4d-11ed-90ce-dac502259ad0.png

當(dāng)然,基于 ImageBind 也可以給出一個(gè)音頻+一張圖,如“狗叫聲”+海景圖:

517f3b36-ef4d-11ed-90ce-dac502259ad0.png

可以直接得到一張“狗在看海”的圖:

51ac6ec6-ef4d-11ed-90ce-dac502259ad0.png

也可以給出音頻,生成相應(yīng)的圖像:

51cfd636-ef4d-11ed-90ce-dac502259ad0.png

正如上文所述, ImageBind 給出了未來(lái)生成式 AI 系統(tǒng)可以以多模態(tài)呈現(xiàn)的方式,同時(shí),結(jié)合 Meta 內(nèi)部的虛擬現(xiàn)實(shí)、混合現(xiàn)實(shí)和元宇宙等技術(shù)和場(chǎng)景結(jié)合。

可以想象一下未來(lái)的頭顯設(shè)備,它不僅可以生成音頻和視頻輸入,也可以生成物理舞臺(tái)上的環(huán)境和運(yùn)動(dòng),即可以動(dòng)態(tài)構(gòu)建 3D 場(chǎng)景(包括聲音、運(yùn)動(dòng)等)。

亦或者,虛擬游戲開(kāi)發(fā)人員也許最終可以使用它來(lái)減少設(shè)計(jì)過(guò)程中的大量跑腿工作。

同樣,內(nèi)容創(chuàng)作者可以?xún)H基于文本、圖像或音頻輸入制作具有逼真的音頻和動(dòng)作的沉浸式視頻。

也很容易想象,用 ImageBind 這樣的工具會(huì)在無(wú)障礙空間打開(kāi)新的大門(mén),譬如,生成實(shí)時(shí)多媒體描述來(lái)幫助有視力或聽(tīng)力障礙的人更好地感知他們的直接環(huán)境。

“在典型的人工智能系統(tǒng)中,每個(gè)模態(tài)都有特定的嵌入(即可以表示數(shù)據(jù)及其在機(jī)器學(xué)習(xí)中的關(guān)系的數(shù)字向量),”Meta 說(shuō)。“ImageBind 表明可以跨多種模態(tài)創(chuàng)建聯(lián)合嵌入空間,而無(wú)需使用每種不同模態(tài)組合對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。這很重要,因?yàn)檠芯咳藛T無(wú)法創(chuàng)建包含例如來(lái)自繁忙城市街道的音頻數(shù)據(jù)和熱數(shù)據(jù),或深度數(shù)據(jù)和海邊文本描述的樣本的數(shù)據(jù)集。”

當(dāng)前,外界可以通過(guò)大約 30 行 Python 代碼就能使用這個(gè)多模式嵌入 API:

51df03ea-ef4d-11ed-90ce-dac502259ad0.jpg

51fba202-ef4d-11ed-90ce-dac502259ad0.png

開(kāi)源大模型是好事還是壞事?

ImageBind 一經(jīng)官宣,也吸引了很多 AI 專(zhuān)家的關(guān)注。如卷積網(wǎng)絡(luò)之父 Yann LeCun 也在第一時(shí)間分享了關(guān)于 ImageBind 的資料

520d8fc6-ef4d-11ed-90ce-dac502259ad0.png

NVIDIA AI 科學(xué)家 Jim Fan 在 Twitter 上表示:

自從 LLaMA 以來(lái),Meta 就在開(kāi)源領(lǐng)域大放異彩。

ImageBind:Meta 最新的多模態(tài)嵌入,不僅涵蓋了常規(guī)數(shù)據(jù)類(lèi)型(文本、圖像、音頻),還包括深度、熱量(紅外)和 IMU 信號(hào)!

OpenAI Embedding 是 AI 驅(qū)動(dòng)搜索和長(zhǎng)期記憶的基礎(chǔ)。ImageBind 是 Meta 的 Embedding API,用于豐富的多媒體搜索、虛擬現(xiàn)實(shí)甚至機(jī)器人技術(shù)。元宇宙將建立在向量的基礎(chǔ)上。

通過(guò)對(duì)齊 6 種模態(tài),你可以實(shí)現(xiàn)一些僅靠文本的 GPT-4 無(wú)法實(shí)現(xiàn)的花式功能:

跨模態(tài)檢索:將其視為多媒體谷歌搜索

嵌入空間算術(shù):無(wú)縫地組合不同的數(shù)據(jù)格式。

生成:通過(guò)擴(kuò)散將任何模態(tài)映射到其他任何模態(tài)。

當(dāng)然,這種通用的多模態(tài)嵌入在性能上優(yōu)于領(lǐng)域特定的特征。

ImageBind:將它們?nèi)拷壎ǖ揭粋€(gè)嵌入空間。

5227cab2-ef4d-11ed-90ce-dac502259ad0.png

也有網(wǎng)友評(píng)價(jià)道,「這項(xiàng)創(chuàng)新為增強(qiáng)搜索、沉浸式 VR 體驗(yàn)和高級(jí)機(jī)器人技術(shù)鋪平了道路。對(duì)于 AI 愛(ài)好者和專(zhuān)業(yè)人士來(lái)說(shuō),激動(dòng)人心的時(shí)刻即將到來(lái)!」。

5237a108-ef4d-11ed-90ce-dac502259ad0.png

不過(guò),對(duì)于 Meta 采取開(kāi)源的做法,也有人提出了質(zhì)疑。

據(jù) The Verge 報(bào)道,那些反對(duì)開(kāi)源的人,如 OpenAI,表示這種做法對(duì)創(chuàng)作者有害,因?yàn)楦?jìng)爭(zhēng)對(duì)手可以復(fù)制他們的作品,并且可能具有潛在的危險(xiǎn),允許惡意行為者利用最先進(jìn)的人工智能模型。

與之形成對(duì)比的是,支持開(kāi)源的人則認(rèn)為,像 Meta 開(kāi)源 ImageBind 的做法有利于生態(tài)的快速建立與發(fā)展,也能集結(jié)全球的力量,幫助 AI 模型快速迭代和捕捉 Bug。

早些時(shí)候,Meta開(kāi)源的LLaMA 模型只能用于研究用途,但是期間LLaMA 模型在 4chan 上被泄露,有匿名用戶(hù)通過(guò) BT 種子公開(kāi)了 LLaMA-65B—— 有650 億個(gè)參數(shù)的 LLaMA,容量為 220GB。

隨著 LLaMA “被公開(kāi)”,一大批基于這款大模型的衍生品,號(hào)稱(chēng)是 ChatGPT 開(kāi)源替代品的工具在短時(shí)間內(nèi)快速涌現(xiàn),如跟著LLaMA(美洲駝)名字走的“駝?lì)悺奔易灏耍核固垢4髮W(xué)發(fā)布的Alpaca(羊駝,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡內(nèi)基梅隆大學(xué)等高校研究人員開(kāi)源的Vicuna(駱馬),還有基于 LLaMA 7B 的多語(yǔ)言指令跟隨語(yǔ)言模型 Guanaco(原駝,https://guanaco-model.github.io/)等等。

面對(duì)這股新興的力量,近日,在一位谷歌內(nèi)部的研究人員泄露的一份文件中顯示,在大模型時(shí)代,「Google 沒(méi)有護(hù)城河,OpenAI 也沒(méi)有」。其主要原因就是第三股——開(kāi)源大模型的力量與生態(tài)正在崛起。

所以,OpenAI 和 Google 兩家在 AI 大模型上你追我趕的競(jìng)爭(zhēng)中,誰(shuí)能笑到最后,也未必就不會(huì)是 Meta,我們也將拭目以待。對(duì)此,你是否看好開(kāi)源大模型的發(fā)展?

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3406

    瀏覽量

    42712
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3307

    瀏覽量

    49223
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    283

    瀏覽量

    11435

原文標(biāo)題:Meta 開(kāi)源 ImageBind 新模型,超越 GPT-4,對(duì)齊文本、音頻等 6 種模態(tài)!

文章出處:【微信號(hào):AI科技大本營(yíng),微信公眾號(hào):AI科技大本營(yíng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Llama 3 與 GPT-4 比較

    沿。 一、技術(shù)架構(gòu) Llama 3和GPT-4都是基于深度學(xué)習(xí)的自然語(yǔ)言處理(NLP)模型,但它們的設(shè)計(jì)理念和技術(shù)細(xì)節(jié)有所不同。 Llama 3 采用了一創(chuàng)新的混合架構(gòu),結(jié)合了傳統(tǒng)的Transformer
    的頭像 發(fā)表于 10-27 14:17 ?543次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯(cuò)

    基于GPT-4模型——CriticGPT,這款模型專(zhuān)為捕獲ChatGPT代碼輸出中的錯(cuò)誤而設(shè)計(jì),其獨(dú)特的作用在于,讓人們能夠用GPT-4來(lái)查找GP
    的頭像 發(fā)表于 06-29 09:55 ?598次閱讀

    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開(kāi)發(fā)教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的強(qiáng)大工具,可用于自然語(yǔ)言處理和多模態(tài)任務(wù)。在國(guó)內(nèi)直聯(lián)使用這些服務(wù)需要一些配置和技巧。本文將詳細(xì)介紹GPT-4o模型以及
    的頭像 發(fā)表于 06-08 00:33 ?5552次閱讀
    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多<b class='flag-5'>模態(tài)</b><b class='flag-5'>GPT4</b>o API調(diào)用開(kāi)發(fā)教程!

    OpenAI全新GPT-4o能力炸場(chǎng)!速度快/成本低,能讀懂人類(lèi)情緒

    ”的意思。GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為
    的頭像 發(fā)表于 05-15 00:15 ?7907次閱讀

    阿里云發(fā)布通義千問(wèn)2.5大模型,多項(xiàng)能力超越GPT-4

    阿里云隆重推出了通義千問(wèn) 2.5 版,宣稱(chēng)其“技術(shù)進(jìn)步,全面超越GPT-4”,尤其是在中文環(huán)境中的多種任務(wù)(如文本理解、文本生成、知識(shí)問(wèn)答及生活建議、臨時(shí)聊天及對(duì)話(huà)以及安全風(fēng)險(xiǎn)評(píng)估)方
    的頭像 發(fā)表于 05-09 14:17 ?1034次閱讀

    訊飛星火大模型V3.5春季升級(jí),多領(lǐng)域知識(shí)問(wèn)答超越GPT-4 Turbo?

    劉慶峰指出,現(xiàn)如今,星火大模型在通用長(zhǎng)文本處理能力方面已相當(dāng)成熟,覆蓋長(zhǎng)文檔信息抽取、知識(shí)問(wèn)答、歸納總結(jié)、文本生成諸多領(lǐng)域,整體表現(xiàn)已達(dá)GPT-4
    的頭像 發(fā)表于 04-26 14:26 ?1147次閱讀

    商湯科技發(fā)布5.0多模態(tài)模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo

    商湯科技發(fā)布5.0多模態(tài)模型,綜合能力全面對(duì)標(biāo)GPT-4 Turbo 4月23日,商湯科技董事長(zhǎng)兼CEO徐立在2024商湯技術(shù)交流日上發(fā)布了行業(yè)首個(gè)云、端、邊全棧大
    的頭像 發(fā)表于 04-24 16:49 ?1179次閱讀

    Meta推出最強(qiáng)開(kāi)源模型Llama 3 要挑戰(zhàn)GPT

    公司這次開(kāi)源了Llama 3 8B與70B兩款不同規(guī)模的模型,開(kāi)發(fā)者可以免費(fèi)使用,而Meta公司還將陸續(xù)推出一系列具備多模態(tài)、多語(yǔ)言對(duì)話(huà)、更長(zhǎng)上下文窗口
    的頭像 發(fā)表于 04-19 17:00 ?894次閱讀

    OpenAI設(shè)立日本辦事處,研發(fā)日文版GPT-4

    此外,OpenAI 還計(jì)劃推出適用于日語(yǔ)環(huán)境的 GPT-4 定制版模型。據(jù)悉,該模型在處理日文文本時(shí)表現(xiàn)更為出色,運(yùn)行速度最高可提升至三倍;同時(shí),其在翻譯和總結(jié)日語(yǔ)
    的頭像 發(fā)表于 04-15 16:04 ?534次閱讀

    OpenAI推出Vision模型GPT-4 Turbo,融合文本與圖像理解

    據(jù)悉,此模型沿用GPT-4 Turbo系列特有的12.8萬(wàn)token窗口規(guī)模及截至2023年12月的知識(shí)庫(kù)架構(gòu),其創(chuàng)新亮點(diǎn)則是強(qiáng)大的視覺(jué)理解功能。
    的頭像 發(fā)表于 04-10 10:49 ?447次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GPT-4 Turbo
    的頭像 發(fā)表于 03-13 13:42 ?780次閱讀

    OpenAI推出ChatGPT新功能:朗讀,支持37語(yǔ)言,兼容GPT-4GPT-3

    據(jù)悉,“朗讀”功能支持37語(yǔ)言,且能夠自主識(shí)別文本類(lèi)型并對(duì)應(yīng)相應(yīng)的發(fā)音。值得關(guān)注的是,該功能對(duì)GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多
    的頭像 發(fā)表于 03-05 15:48 ?1006次閱讀

    全球最強(qiáng)大模型易主,GPT-4超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱(chēng),Claude 3系列在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺(jué)方面全面超越了包括GPT-4在內(nèi)的所
    的頭像 發(fā)表于 03-05 09:58 ?704次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹(shù)立AI新標(biāo)桿

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語(yǔ)言能力關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI
    的頭像 發(fā)表于 03-05 09:49 ?742次閱讀

    全球最強(qiáng)大模型易主:GPT-4超越,Claude 3系列嶄露頭角

    近日,人工智能領(lǐng)域迎來(lái)了一場(chǎng)革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語(yǔ)言能力關(guān)鍵指標(biāo)上展現(xiàn)出卓越性能,成功
    的頭像 發(fā)表于 03-05 09:42 ?709次閱讀
    大发888官方 黄埔网| 澳门百家乐的故事| 百家乐官网庄家抽水| 金都百家乐的玩法技巧和规则| 百家乐官网网上真钱娱乐平台| 金彩娱乐城| 真人百家乐怎么玩| 罗田县| 澳门百家乐搏牌规则| 百家乐官网闲和庄| 大富翁娱乐城| 威尼斯人娱乐场官网326369| 百家乐赢钱战略| 百家乐官网白茫茫| e世博线上娱乐| 大发888网页打不开| 百家乐百家乐视频游戏世界| 百家乐官网娱乐代理| 百家乐官网是真的吗| 六合彩网址大全| 君怡百家乐的玩法技巧和规则 | 大发888-娱乐| 百家乐三路法| 赌百家乐官网2号破解| 百家乐官网投注很不错| 赌场少女| 大发888娱乐城维护| 百家乐游戏源码手机| 做生意的怎样招财| 百家乐楼梯缆| 百家乐算号软件| 百家乐官网庄多还是闲多| 百家乐官网怎么压对子| 六合彩开奖现场| 太阳城 娱乐城| 百家乐在线娱乐平台| 网页百家乐游戏| 东营区百家乐官网艺术团| 澳门百家乐官网先赢后输| 百家乐官网筛子游戏| 网上娱乐城开户|