那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新晉圖像生成王者擴散模型

OpenCV學堂 ? 來源:StyleGAN ? 作者:StyleGAN ? 2022-06-06 10:54 ? 次閱讀

新晉圖像生成王者擴散模型,剛剛誕生沒多久。

有關它的理論和實踐都還在“野蠻生長”。

來自英偉達StyleGAN的原班作者們站了出來,嘗試給出了一些設計擴散模型的竅門和準則,結果模型的質量和效率都有所改進,比如將現有ImageNet-64模型的FID分數從2.07提高到接近SOTA的1.55分。

c89fd514-e4df-11ec-ba43-dac502259ad0.png

他們這一工作成果迅速得到了業界大佬的認同。

DeepMind研究員就稱贊道:這篇論文簡直就是訓練擴散模型的人必看,妥妥的一座金礦。

c8eb9008-e4df-11ec-ba43-dac502259ad0.png

三大貢獻顯著提高模型質量和效率

我們從以下幾個方面來看StyleGAN作者們對擴散模型所做的三大貢獻:

用通用框架表示擴散模型

在這部分,作者的貢獻主要為從實踐的角度觀察模型背后的理論,重點關注出現在訓練和采樣階段的“有形”對象和算法,更好地了解了組件是如何連接在一起的,以及它們在整個系統的設計中可以使用的自由度(degrees of freedom)。

精華就是下面這張表:

c9384056-e4df-11ec-ba43-dac502259ad0.png

該表給出了在他們的框架中復現三種模型的確定變體的公式。

(這三種方法(VP、VE、iDDPM+ DDIM)不僅被廣泛使用且實現了SOTA性能,還來自不同的理論基礎。)

這些公式讓組件之間原則上沒有隱含的依賴關系,在合理范圍內選擇任意單個公示都可以得出一個功能模型。

隨機采樣和確定性采樣的改進

作者的第二組貢獻涉及擴散模型合成圖像的采樣過程。

他們確定了最佳的時間離散化(time discretization),對采樣過程應用了更高階的Runge–Kutta方法,并在三個預訓練模型上評估不同的方法,分析了隨機性在采樣過程中的有用性。

結果在合成過程中所需的采樣步驟數量顯著減少,改進的采樣器可以用作幾個廣泛使用的擴散模型的直接替代品。

先看確定性采樣。用到的三個測試模型還是上面的那三個,來自不同的理論框架和模型族。

作者首先使用原始的采樣器(sampler)實現測量這些模型的基線結果,然后使用表1中的公式將這些采樣方法引入他們的統一框架,再進行改進。

接著根據在50000張生成圖像和所有可用真實圖像之間計算的FID分數來評估質量。

c9765d6e-e4df-11ec-ba43-dac502259ad0.png

可以看到,原始的的確定性采樣器以藍色顯示,在他們的統一框架(橙色)中重新實現這些方法會產生類似或更好的結果。

作者解釋,這些差異是由于原始實現中的某些疏忽,加上作者對離散噪聲級的處理更仔細造成的。

確定性采樣好處雖然多,但與每一步都向圖像中注入新噪聲的隨機采樣相比,它輸出的圖像質量確實更差。

不過作者很好奇,假設ODE(常微分方程)和SDE(隨機微分方程)在理論上恢復相同的分布,隨機性的作用到底是什么?

在此他們提出了一種新的隨機采樣器,它將現有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結合。

最終模型性能提升顯著,而且僅通過對采樣器的改進,就能夠讓ImageNet-64模型原來的FID分數從2.07提高到1.55,接近SOTA水平。

c9a2bbd4-e4df-11ec-ba43-dac502259ad0.png

預處理和訓練

作者的第三組貢獻主要為分數建模(score-modeling)神經網絡的訓練。

這部分繼續依賴常用的網絡體系結構(DDPM、NCSN),作者通過對擴散模型設置中網絡的輸入、輸出和損失函數的預處理進行了原則性分析,得出了改進訓練動態的最佳實踐。

比如使用依賴于σ(noise level)的跳躍連接對神經網絡進行預處理,使其能夠估計y(signal)或n(noise),或介于兩者之間的東西。

下表具體展示了模型彩英不同訓練配置得到的FID分數。

c9fe22bc-e4df-11ec-ba43-dac502259ad0.png

作者從基線訓練配置開始,使用確定性采樣器(稱為配置A),重新調整了基本超參數(配置B),并通過移除最低分辨率層,并將最高分辨率層的容量加倍來提高模型的表達能力(配置C)。

然后用預處理(配置D)替換原來的{cin,cout,cnoise,cskip}選項。這使結果基本保持不變,但VE在64×64分辨率下有很大改善。該預處理方法的主要好處不是改善FID本身,而是使訓練更加穩健,從而將重點轉向重新設計損失函數又不會產生不利影響。

VP和VE只在Fθ的架構上有所不同(配置E和F)。

除此之外,作者還建議改進訓練期間的噪聲級分布,并發現通常與GANs一起使用的無泄漏風險增強(non-leaking augmentation)操作也有利于擴散模型。

比如從上表中,我們可以看到:有條件和無條件CIFAR-10的最新FID分別達到了1.79和1.97,打破了之前的記錄(1.85和2.1046)。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4630

    瀏覽量

    93360
  • 模型
    +關注

    關注

    1

    文章

    3313

    瀏覽量

    49231

原文標題:DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門,來自StyleGAN原作者

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?

    電子發燒友網站提供《AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?.pdf》資料免費下載
    發表于 01-13 14:21 ?0次下載
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它們是如何<b class='flag-5'>生成</b>的?

    基于移動自回歸的時序擴散預測模型

    回歸取得了比傳統基于噪聲的擴散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預測領域,當前主流的擴散方法還是傳統的
    的頭像 發表于 01-03 14:05 ?194次閱讀
    基于移動自回歸的時序<b class='flag-5'>擴散</b>預測<b class='flag-5'>模型</b>

    借助谷歌Gemini和Imagen模型生成高質量圖像

    在快速發展的生成式 AI 領域,結合不同模型的優勢可以帶來顯著的成果。通過利用谷歌的 Gemini 模型來制作詳細且富有創意的提示,然后使用 Imagen 3 模型根據這些提示
    的頭像 發表于 01-03 10:38 ?404次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質量<b class='flag-5'>圖像</b>

    Google兩款先進生成式AI模型登陸Vertex AI平臺

    新的 AI 模型,包括最先進的視頻生成模型Veo以及最高品質的圖像生成模型Imagen 3。近日
    的頭像 發表于 12-30 09:56 ?143次閱讀

    浙大、微信提出精確反演采樣器新范式,徹底解決擴散模型反演問題

    隨著擴散生成模型的發展,人工智能步入了屬于?AIGC?的新紀元。擴散生成模型可以對初始高斯噪聲進
    的頭像 發表于 11-27 09:21 ?251次閱讀
    浙大、微信提出精確反演采樣器新范式,徹底解決<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>反演問題

    擴散模型的理論基礎

    擴散模型的迅速崛起是過去幾年機器學習領域最大的發展之一。在這本簡單易懂的指南中,學習你需要知道的關于擴散模型的一切。
    的頭像 發表于 10-28 09:30 ?694次閱讀
    <b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的理論基礎

    Meta發布Imagine Yourself AI模型,重塑個性化圖像生成未來

    Meta公司近日在人工智能領域邁出了重要一步,隆重推出了其創新之作——“Imagine Yourself”AI模型,這一突破性技術為個性化圖像生成領域帶來了前所未有的變革。在社交媒體與虛擬現實技術
    的頭像 發表于 08-26 10:59 ?636次閱讀

    如何用C++創建簡單的生成式AI模型

    生成式AI(Generative AI)是一種人工智能技術,它通過機器學習模型和深度學習技術,從大量歷史數據中學習對象的特征和規律,從而能夠生成全新的、完全原創的內容,包括文本、圖像
    的頭像 發表于 07-05 17:53 ?1050次閱讀

    Runway發布Gen-3 Alpha視頻生成模型

    專為電影和圖像內容創作者提供生成式AI工具的Runway公司近日宣布,其最新的Gen-3 Alpha視頻生成模型已經正式問世。這款模型在多方
    的頭像 發表于 06-19 09:25 ?621次閱讀

    南開大學和字節跳動聯合開發一款StoryDiffusion模型

    近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。
    的頭像 發表于 05-07 14:46 ?1354次閱讀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學團隊宣布研發出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質量上均實現了顯著突破。KOALA 能夠在短短 2 秒內生成
    的頭像 發表于 03-05 10:46 ?841次閱讀

    韓國科研團隊發布新型AI圖像生成模型KOALA,大幅優化硬件需求

    由此模型的核心在于其運用了“知識蒸餾”(knowledge distillation)技術,這使得開源圖像生成工具Stable Diffusion XL可大幅縮小其規模。原Stable Diffusion XL擁有25.6億個參
    的頭像 發表于 03-01 14:10 ?697次閱讀

    谷歌Gemini AI模型因人物圖像生成問題暫停運行

    據報道,部分用戶發現Gemini生成的圖片存在明顯錯誤,如特斯拉創始人和其他名人變成了黑人模樣。谷歌已決定暫停該模型的人物圖像生成功能以待改善。
    的頭像 發表于 02-25 09:59 ?642次閱讀

    openai發布首個視頻生成模型sora

    美國當地時間2024年2月15日 ,OpenAI正式發布文生視頻模型Sora ,并發布了48個文生視頻案例和技術報告 ,正式入局視頻生成領域 。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓”了
    的頭像 發表于 02-21 16:45 ?1369次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion更快、更強大,而Stable Diffusion是許多其他文本到圖像
    的頭像 發表于 02-19 16:03 ?995次閱讀
    Stability AI試圖通過新的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持領先地位
    钱柜百家乐官网的玩法技巧和规则 | 南宁百家乐的玩法技巧和规则| 澳门百家乐官网娱乐城送体验金| 大发888娱乐城官网| 澳门百家乐官网网上娱乐场开户注册 | 澳门百家乐官网网上娱乐场开户注册 | 百家乐几点开奖| 大发888网页版出纳| 百家乐网址哪里有| 百家乐官网跟路技巧| 力博娱乐| 全讯网| gt百家乐平台假吗| 赌百家乐官网的方法| 大发888手机客户端| 百家乐网站可信吗| 百家乐如何睇路| 678百家乐官网博彩娱乐网| 防城港市| 香港六合彩网| 缅甸百家乐赌场| 百家乐稳赢秘笈| 百家乐官网揽法大全| 金盈会百家乐官网现金网| 七匹狼娱乐城开户| 七乐百家乐现金网| 百家乐官网送18元彩金| 百家乐官网秘诀| 网上百家乐官网真实吗| 分宜县| 峨边| 皇冠投注平台| 网上现金赌博游戏| 博狗娱乐| 大发| bet365v网卡| 大发888游戏代充| 大发888亚洲赌场| 大发888相关资讯| 至尊百家乐赌场娱乐网规则| 温州市百家乐鞋业有限公司|