論文簡介
可控擴散模型如ControlNet、T2I-Adapter和GLIGEN等可通過額外添加的空間條件如人體姿態、目標框來控制生成圖像中內容的具體布局。使用從已有的圖像中提取的人體姿態、目標框或者數據集中的標注作為空間限制條件,上述方法已經獲得了非常好的可控圖像生成效果。那么如何更友好、方便地獲得空間限制條件?或者說如何自定義空間條件用于可控圖像生成呢?例如自定義空間條件中物體的類別、大小、數量、以及表示形式(目標框、關鍵點、和實例掩碼)。
本文將空間條件中物體的形狀、位置以及它們之間的關系等性質總結為視覺先驗(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式來建模上述視覺先驗。因此,我們可以從學習好的先驗中通過Prompt從多個層面,例如表示形式(目標框、關鍵點、實例掩碼)、物體類別、大小和數量,來采樣空間限制條件。我們設想,隨著可控擴散模型生成能力的提升,以此可以針對性地生成圖像用于特定場景下的數據補充,例如擁擠場景下的人體姿態估計和目標檢測。
方法介紹
表1 訓練數據
本文從當前公開的數據集中整理收集了七種數據,如表1所示。為了以Generative Pre-Training的方式學習視覺先驗并且添加序列輸出的可定制功能,本文提出以下兩種Prompt模板:
使用上述模板可以將表1中訓練數據中每一張圖片的標注格式化成一個序列x。在訓練過程中,我們使用BPE算法將每個序列x編碼成tokens={u1,u2,…,u3},并通過極大化似然來學習視覺先驗,如下式:
最后,我們可以從上述方式學習獲得的模型中定制序列輸出,如下圖所示。
圖1 定制序列輸出
效果展示
-
模型
+關注
關注
1文章
3313瀏覽量
49233 -
數據集
+關注
關注
4文章
1209瀏覽量
24836 -
圖像生成
+關注
關注
0文章
22瀏覽量
6903
原文標題:NeurIPS 2023 | NUS&深大提出VisorGPT:為可控文本圖像生成定制空間條件
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
如何判斷產品需不需要做AT&T認證?AT&T測試內容和要求分享
![如何判斷產品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T測試內容和要求分享](https://file1.elecfans.com/web2/M00/F6/0B/wKgaomZ-eyCATxYiAAAbudLbHI4849.png)
北美運營商AT&amp;amp;T認證中的VoLTE測試項
![北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證中的VoLTE測試項](https://file1.elecfans.com/web2/M00/F6/0B/wKgaomZ-eyCATxYiAAAbudLbHI4849.png)
視覺傳感器 | 這些常見的Q&amp;amp;A!今天統一回答!
![視覺傳感器 | 這些常見的Q&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;A!今天統一回答!](https://file.elecfans.com/web2/M00/4F/12/poYBAGLDzd6AEcaOAABBJLbgtXA388.png)
北美運營商AT&amp;amp;T認證的費用受哪些因素影響
![北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證的費用受哪些因素影響](https://file1.elecfans.com/web2/M00/EC/D0/wKgaomZgL2aALNI6AAAvUF2aXLM387.png)
onsemi LV/MV MOSFET 產品介紹 &amp;amp; 行業應用
![onsemi LV/MV MOSFET 產品介紹 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行業應用](https://file.elecfans.com/web2/M00/92/72/poYBAGPzDF2APvYFAAAbxdHf0so719.png)
FS201資料(pcb &amp; DEMO &amp; 原理圖)
北美運營商AT&amp;amp;T認證入庫產品范圍名單相關
![北美運營商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T認證入庫產品范圍名單相關](https://file1.elecfans.com/web2/M00/F6/0B/wKgaomZ-eyCATxYiAAAbudLbHI4849.png)
解讀北美運營商,AT&amp;amp;T的認證分類與認證內容分享
![解讀北美運營商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的認證分類與認證內容分享](https://file1.elecfans.com/web2/M00/EC/D0/wKgaomZgL2aALNI6AAAvUF2aXLM387.png)
在TSMaster中加載基于DotNet平臺的Seed&amp;amp;Key
![在TSMaster中加載基于DotNet平臺的Seed&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Key](https://file.elecfans.com/web2/M00/40/07/pYYBAGJrUk2AaMaTAAAQONQtdzo461.jpg)
評論