本文從 AIGC 技術->產品->業務應用和價值實現環節探討其發展路徑,并以產業實例探討 AIGC 如何才能在產業領域實現閉環和價值落地。
去年以來出現了 AIGC 熱潮,引發了 AIGC 及其應用話題的爆發性增長,不少人感慨強人工智能的時代已經離我們不那么遙遠了。但是在熱潮的另一面,我們看到真正能落地的場景依然是鳳毛麟角,目前比較成功的應用主要集中在個人消費領域,而 AIGC 在產業中的應用大多仍然處于探索階段。
紅杉資本在 22 年 9 月就對 AIGC 做出了以下預判:文字類 AI 生成將在 2023 年進入黃金時期,圖片類 AI 生成黃金時期將在 2025 年左右抵達,3D 和視頻類 AI 生成在 2023 年可能正處于草稿階段,進入黃金時期或許在 2030 年。不可否認,文字與圖片的 AI 生成確實走在了前面,而 3D 模型、視頻和游戲生成仍在研發階段。
紅杉資本針對 AIGC 相關產品成熟預測
若考慮到 AIGC 產業應用,如在制造業、建筑業等巨型垂直實體領域中,AIGC 的 C/Content 內容將不能僅停留在圖片和文字的領域,而是需要進入信息更為豐富的三維領域。接下來,我們將從 AIGC 技術 -> 產品 -> 業務應用和價值實現環節探討其發展路徑,并以產業實例探討 AIGC 如何才能在產業領域實現閉環和價值落地。
1.AIGC 技術:從文字到圖片
從大家對 ChatGPT 越來越多的測試中可以看到,ChatGPT 不僅能對語義進行解析和結構化,還能在此基礎上用 NLP 自然語言處理做數據分析。
ChatGPT 對內容進行結構化處理和數據分析 - 佳格數據提供
事實上,以 Stable Diffusion 為首的一眾 AI 畫圖框架或者平臺,在去年更早的時候已經引起了轟動。雖然圖片相對文字來說看上去信息含量要更為復雜,但是其技術成熟卻要比以 GPT 為首的文字生成來的更早一些,我們有必要從主流的開源框架 Stable Diffusion 為例,回顧一下這些圖片 AIGC 框架是如何工作的。
Stable Diffusion 生成的圖片, 已經有了比擬人類畫家的能力
Stable Diffusion 主要有三個組成部分,每一個部分都有自己的神經網絡。
1、CLIP 用于文字編碼器:以文字作為輸出的語義信息組成一個 77*768 的矩陣,CLIP 訓練 AI 同時進行自然語言理解和計算機視覺分析。CLIP 可以決定圖像和文字提示的對應程度,比如逐步把建筑的圖像和 “建筑” 這個詞完全匹配起來,而其能力訓練是通過全球 40 多億張帶文字描述的圖片實現的。
CLIP 的訓練集
2、UNET 及調度程序:這就是大名鼎鼎的擴散模型主程序(來自 CompVis 和 Runway 團隊于 2021 年 12 月提出的 “潛在擴散模型”(LDM / Latent Diffusion Model)),用于對噪聲進行預測實現反向去噪的過程,進而實現圖片在信息空間中的生成。如圖片所示,染料擴散的過程就像從圖片逐漸變成噪點的過程,而當研究人員對圖片增加隨機噪點讓 AI 反向學習整體過程,而后就擁有了一套從信息空間噪點圖反向生成圖片的模型。
Diffusion 模型反向去噪過程
用通俗的例子解釋,如果在清水里隨機滴入一些染料,隨著時間推移會得到如下圖一樣絢麗的形狀。那么有沒有一種方法,能夠根據某一個特定時間特定的狀態,反向推出初始的染料用量、順序、滴入水缸的初始狀態等信息呢?顯然,如果不借用 AI 的方式幾乎無法實現。
不同的染料滴入水中擴散出不同的形狀
3、信息空間到真實圖片空間的解碼器:即把信息空間中的矩陣信息轉換為肉眼可見的 RGB 圖片。想象一下我們與人交流的過程,聽到的聲音信號轉換為大腦能理解的文字信號存儲在腦中,這個過程稱之為編碼。如果嘗試把文字信號通過某種語言表達出來,這個過程可以稱為解碼 —— 這里的表達方式可以是任意的語言,每種語言對應不同的解碼器,解碼只是一種表達方式,本質還是基于人類腦海中對于某件事情的描述與理解。
StableDiffusion 從輸入到輸出全流程解讀
正是有了這幾個關鍵技術步驟的串聯,Stable Diffusion 成功創建了一個無所不能的 AI 作圖機器人,不僅能理解語義,將其轉化為信息空間的信息流,還能夠在信息空間中通過模擬降噪創作,通過解碼器還原成肉眼可見的圖片,這一充滿科幻色彩的過程放在 AI 不存在的世界來看,堪稱神跡。
2.AIGC 技術:從圖片到 3D 模型
圖片生成已經取得了突破性的效果,但如果這些成果能夠進一步優化應用到更多領域,將有可能實現更大價值。我們也看到一些細分領域中的探索成果,比如經由對場景的理解,通過不同的數據集加入和調參,可以實現對圖片生成更好的控制,而不僅是通過文字的不斷試錯來獲得更優結果。
2.1 設計意向圖生成
2019 年初,用 GANs 生成的「這個 XX 不存在」系列在海外獲得大量關注,在國內我們也看到企業推出了在細分領域的成果。而該團隊也于 22 年 8 月實驗性的在手機端推出了「AI 創意庫」,只需要輸入一句話,對話機器人就能在一分鐘內快速理解語義,生成多張效果細膩貼近建筑概念方案的意向圖。在此之上,更是可以通過輸入一張已有的圖片,修改部分描述的關鍵字,「AI 創意庫」即可生成一系列的衍生圖片,輔助設計師在日常創作中尋找靈感。
小庫科技「這個建筑不存在」,GANs 模型生成建筑意象圖及迭代過程
左圖:小庫「AI 創意庫」生成,觸發語句 Louis Kahn 風格,依山傍水的小型博物館;右圖:小庫「AI 創意庫」生成,基于左圖 Louis Kahn 風格圖片,完成風格切換至 Le Corbusier
為了使得「AI 創意庫」的效果更優,團隊做了一些新的探索:由于已有的算法和模型更多聚集在通用互聯網素材上,建筑相關的圖片、形容及風格的數據儲備在專業程度顯然是不夠的。這里采取了一種針對建筑相關詞匯的特殊標識,組成一個微調的先驗數據集并將該數據集融合訓練,實現模型增強。通過建筑專業領域增強的新模型,形成了面向建筑行業專屬的 AI 創意庫,針對建筑類描述短句,測試集優品率相比原有模型提升了 13.6% 之多。
Google Dreambooth Fine-Tuning 算法示意
舉個例子,當輸入一張博物館圖片及一個詞匯 "Zaha Hadid(過世的全球著名女建筑師)" 的時候,模型能夠理解需要將博物館的建筑風格或特征往 Zaha Hadid 的作品靠攏,而不是在博物館中增加一個 Zaha Hadid 的人物或畫像,抑或是在 AI 世界里創作一個 Zaha Hadid 的卡通畫像 —— 這往往是通用模型會返回的結果之一。
經過微調后的建筑模型,小庫「AI 創意庫」能充分理解 “Zaha Hadid” 這個特殊詞匯隱含意思
2.2 3D 模型生成
二維的圖片雖然精彩,但在產業應用中暫時還只是停留在 “意向圖庫” 的作用,未來如果要成為可以精準表達設計的成果,需要向 3D 和更高信息維度去邁進。
在 2020 年 AIGC 沒有現在這么成熟的時候,上述團隊就在探索如何用 AI 生成 3D 模型,并在同濟大學 DigitalFUTURES 工作坊教學中,公開了其在研發中的從圖形生成圖像進一步生成模型的算法,能看到當時的模型效果并不太理想,有價值的是實現了圖形 - 圖像 - 模型的聯動。
2020 同濟大學 DigitalFUTURES 工作坊小庫教學團隊成果,手繪圖形生成圖像進而生成模型
第二年在同濟大學 DigitalFUTURES 工作坊教學中,該團隊發布了一種通過 GANs 學習衛星圖與真實三維模型之間關系,將衛星圖生成為真實三維模型的算法。該算法通過對衛星圖上不同的圖層元素進行特征學習,能大致復原出衛星圖所對應的主要物體三維拉伸形體,預測不同物體投影所對應的原物體高度。當然,這種方法還存在一定的缺陷,只能在衛星圖場景中使用,難以積累其他場景中同類圖片與三維形體之間的關系;其次是還原的三維形體只能粗略預測高度,其他細節需要通過算法重新生成,與真實的三維模型存在較大誤差,只能用于項目早期研判使用,應用場景有限。
城市三維模型分層特征提取訓練示意圖
2021 同濟大學 DigitalFUTURES 工作坊小庫教學團隊成果,基于 GANS 的衛星圖重建三維模型
得益于 AIGC 算法的爆發、3D 生成算法的日益成熟,我們也看到垂直類 AI 企業開始吸收更多先進的技術與思路改善其模型,并在 3D-AIGC 的路線上有了一些新的嘗試方向。例如 OPENAI 推出了 Point-E 框架,該框架可以將任意二維圖片通過算法預測為點云,進而通過點云去預測三維物件。
PointE 框架全過程示意圖
但是模型生成的質量依然有一定的局限,而模型的不可用主要體現在以下三個方面:
1. 三維形體還原難:首先二維圖像數據比三維模型數據出現早,同時可獲取的二維圖像數據目前也比后者多,因此前者可作為訓練素材的量級更多,較少的三維模型訓練素材的泛化能力有限,難以還原最初的三維形體;
2. 材質整體缺失:對于三維模型來說最重要的一環是材質的填充與選擇,然而對于AI生成來說,從圖片直接推敲其材質的方法尚未成熟,同樣材質在不同的形狀、環境、光源下的表現都有所不同,而當這些變量都集中在一張圖片中時,材質重建幾乎不可能實現;
3. 生成的模型精度不達標:通過點云推敲的模型,通常是依賴于點云的密度重建物體表面 Mesh,如果點云過少物體會嚴重失真,甚至無法重建模型。
小庫團隊測試 Point- E 模型,左邊建筑圖片生成點云進而模擬出右邊三維模型,遺憾得到的只是一堆無意義的點云模型,Point-E 暫時還無法理解一個建筑物的圖片
當然我們能理解當前的技術瓶頸,如果把目標定的稍微低一點,選擇從三維建模軟件中生成的簡單形體、做二維的截圖在 point-e 模型中重建,會意外地發現其效果比以上測試更佳,但也仍局限在 “初步草稿” 的范疇。這與訓練集有很大的關聯性,通過三維建模軟件生成各個視角的二維視圖是該模型最易獲取訓練數據的方法之一。
小庫團隊測試 Point-E 模型,針對建模軟件中選取一個簡單三維模型做任意角度截圖,重建三維模型,往往有還不錯的效果
綜上來看,從文字 -> 圖片 -> 點云 -> 三維物體的技術路線固然令人驚嘆,但如果要應用在產業領域,還有很多工作需要 AI 科學家們去做。
然而,是否只有這一條技術路線去實現三維模型的生成?
3 垂直領域 AIGC 應用新思路
在泛領域的大模型研發上以 OpenAI 為首的廠商,包括 Nvidia 和 Google 等巨頭也在紛紛推出屬于自己自己的通用型 3D-AIGC 框架,遺憾的是目前還處在一個早期階段。對于垂直實體產業來說,落地應用顯然還有很長的路要走。
從全球范圍來看,在 3D 模型的生成領域除了泛領域大模型外,部分垂直產業也在探索 AIGC 如何應用落地。比如西門子在引擎的設計和制造中針對生成的模型進行方針模擬和進一步優化,最終通過3D打印實體,實現了3D模型生成現成果交付和業務閉環。
西門子通過生成式算法實現引擎的設計和模擬
這樣的成果的實現,有賴于在產業邏輯下的底層業務內容及其數據標準的不斷迭代。
按照 ISO/ IEC 給出對內容的數字標準定義 SMART(Standards Machine Applicable, Readable and Transferable 機器可開、可讀和可交互標準):L1 級為紙質文本,沒有機器交互可能;L2 級為開放數字格式,機器交互性很低;L3 級為機器可讀文檔,但機器無法理解檢索的結果與內容;L4 級為機器可讀內容,可做語義交互但機器無法理解上下文的邏輯關系;L5 級,機器可交互內容,可實現自動識別、自動生成等智能屬性。
在產業領域中,目前廣泛應用 L3 級信息化內容,正在發展 L4 級數字化內容,而 L5 級智能化是工業 4.0 和智能制造的核心基礎。因此,生成 L4 級以上機器可讀內容,特別是生成 L5 級智能化內容,是未來 AIGC 的方向。
ISO/IEC SMART 數字標準《中國工程科學》2021 年第 23 卷第 6 期《標準數字化發展現狀及趨勢研究》劉曦澤、王益誼、杜曉燕、李佳、車迪
海外已經在 AIGC 的產業應用領域中開始了實踐,而國內的探索仍然比較稀缺,但我們也發現了一些在垂直領域深耕的企業。比如上述提到的,在建筑產業深耕的小庫科技團隊。我們將以其實踐的建筑產業為例,探討 AIGC 在垂直產業中的落地路徑。
當前國內實體經濟處于轉型的窗口期,國家層面提出 “人工智能與實體經濟融合 “的重要任務,各大產業迫切希望 AI 技術能夠真正落地,協助產業實現數字化與智能化的升級躍遷,而不是一個停留在概念的 DEMO 產品,或者茶余飯后討論的好玩趣物。
建筑產業是接近 30 萬億每年的國家支柱型產業,但是其數字化水平在全國各行業中排名倒數第一。當前國家提出智能建造方針,希望邁上 “中國建造” 的新臺階。智能建造是以新型建筑工業化(工業化 / 裝配式、數字化、智能化)為基礎,基于新一代信息技術與先進建造技術深度融合,貫穿于設計、生產、施工、運維、監管等建設活動各個環節,具有自感知、自決策、自執行、自適應、自學習等特征,旨在優化建筑產業全生命周期質量、效益和核心競爭力的先進建造方式。
2011-2021 年中國建筑業總產值及增長情況 - 國家統計局 - 前瞻產業研究院,
資科來源:Gartner;Kable;經合組織;中央統計局;彭博社;麥肯錫全球研究院分析
而在建筑產業,底層數據標準正從機器可讀文檔 L3 級的 CAD 時代,向機器可讀內容的 L4 級 BIM 時代邁進。建筑產業中對 3D 模型的要求是內容對象具備三維空間中的全維度精確信息,包括模型、數據等維度,如果還能包含規則維度,進而便可使其具備自感知、自學習、自迭代等智能化的能力。目前,L3 級的 CAD 和 L4 級的 BIM 應用軟件已經被海外壟斷,我們發展的空間和潛力必然集中在了可以高維覆蓋低維的 L5 級上。
數字標準 SMART 在建筑領域的內容格式示意
基于對建筑產業數字化變革的洞察,小庫團隊意識到必須對整個產業的數據底層進行再定義。從 2016 年成立起便致力于 L5 級 3D 模型 AIGC 的底層技術研發及其在建筑產業中的應用。基于一套含有業務流邏輯的 AI 系統生成包含建筑信息與多維數據、3D 模型、以及規則 / 規范 / 規律的 “數 - 模 - 規” 可聯動的內容,實現建筑設計方案的智能生成。
這樣的底層數據,團隊將其稱為AI driven Building Information Model on Cloud人工智能生成的云端建筑信息模型(簡稱 ABC),并將智能生成的達成歸結為四個實踐步驟:AI 識別現有內容用于訓練或結構化數據重建,對數據進行評估和模擬仿真,通過對初步數據成果進行優化,最終生成由系列的 AI 模型組建的業務成果。
L5 級建筑智能格式 ABC 智能云模示意
AI 識別領域,團隊通過對千萬級的不同業務類型 CAD 圖紙數據的清洗和訓練,獲得了對 L3 級無語義 CAD 圖紙的 100% 云端還原與 99.8%* 的準確語義解析和補充,在該領域達到世界先進水平。這項成果已經深度應用到企業的多個產品與解決方案中,比如針對施工圖審查的「智能審圖」中條文審查準確率約為 96%。
小庫施工圖構件與空間識別
AI 分析領域,基于對項目的有效識別,針對住宅、商場等常用民用建筑類型,使得團隊能夠進行物理環境仿真分析、人類行為數據模擬與預測、項目相關大數據的分析和模擬。在應用層面上,可以協助客戶進行項目方案量化分析,比如通過對房企全線住宅產品的評估可以得到不同價值評估系數,協助房企提升產品質量。因此,小庫科技也被選為中房協戶型設計大賽首個 AI 評委。這項能力也被應用于香港和國內十余個商場建筑的開發與運營中。
小庫「產品力價值評估」
AI 優化領域,團隊認為 “優化” 是基于前序 “識別” 和 “分析 “后的進一步尋優迭代,即基于已有內容的重新生成更優的成果。這類技術已在公司具體的產品和解決方案中得到應用。比如在設計云 2022 版 “智能日照優化” 功能中,小庫可以將未通過日照的方案進行自動微調,使其能夠在原有格局不進行巨大調整的前提下通過日照驗證。這項能力也用在了建筑方案的設計深化中,比如幕墻設計優化場景。在與四川省商業設計院合作的四川某博物館幕墻項目中,小庫算法將原有 3 萬多種不規則三角形幕墻板優化為 12 種標準模塊,比現有世界水平能降低到的 116 種還減少了 90%,建筑幕墻成本將因為 SKU 和開模數量的降低而得到大幅度降低。
小庫「幕墻優化 AI 算法」
AI 生成領域,是智能設計最為核心的部分。對建筑業而言,選擇經濟適用美觀的設計方案、交付安全高效高質量的建造成果,需要多專業、多角色統籌協同完成。不僅需要從宏觀尺度、到中觀尺度再到微觀尺度逐個攻破,還需要在建筑、結構、機電、水暖、景觀等多專業逐步覆蓋,更需要涵蓋住宅、公寓、產業、辦公、商業等各種業態類型。因此垂直領域的專業成果生成絕不是某一個模型算法一套數據可以解決的,它需要多模型、多模態、多數據集等多項技術與業務邏輯有機融合,通過契合細分場景的產品設計和基于用戶反饋的持續迭代,才能最終實現。
小庫團隊從業務邏輯出發,對傳統建筑設計需要的 24 個業務流程步驟進行梳理,將其核心內容抽取重構為 6 個業務模塊,以 AI 系統與云端架構為核心,建立起一套全新的建筑設計 AIGC 業務流程:調(信息調用與AI識別)、做(全AI生成與人機協作生成)、改(人工可改與AI優化)、核(數據核查與AI審查)、協(云端多人協同與業務管理)、出(自動輸出更多格式- 3D模型/2D圖紙/圖像/PPT/Excel等)。
左圖:建筑設計原有業務流程 24 個步驟,右圖:小庫重構為 6 個 AI 加持下的業務流程板塊
基于對業務的深刻理解和重構的業務邏輯,在產品設計上將 6 大業務模塊與 AI 識別、AI 生成、大數據、云端協同等技術深度融合,實現了建筑規劃、單體設計、構件生成等不同深度的建筑業務需求,從分析到設計到審查再到協同與輸出,逐步覆蓋了住宅類業務所需的廣度和深度需求。
「小庫設計云 - 建筑規劃」產品 6 大模塊
「小庫設計云 - 建筑單體」產品 6 大模塊
4. AIGC 在產業中的價值落地
在大部分產業中,AIGC 的應用仍然處于初級階段,整體 AI 技術的不斷發展將推動后續 AIGC 的創新應用。以當前的建筑產業實踐為例,AIGC 目前能夠在產生用戶可感知價值的部分業務細節場景中,輔助提升對效率有較高要求的具體業務場景,如建筑產業中的投研、設計、評估、管理和建造等環節。
4.1 最優解增益與效率提升
在建筑產業的投研階段,2021 年出臺的 “兩集中” 政策(集中供應土地和集中拍地)使大量土地集中在一個月內推出,開發企業需要在短時間內完成對每一塊土地的投資評估,其中最核心的是如何在一塊地上找到最優的建筑規劃方案,獲得最大的產品貨值和投資回報測算。原本完成一個住宅規劃概念方案的時間至少需要 3-5 天,無法滿足業務需要,如此就提出了對投前建筑規劃方案的極致效率的需求。
小庫團隊推出 AIGC 的建筑規劃方案,只需原來 30% 左右的時間就可以輸出初步方案。更重要的是,AI 可以生成和優化一些人沒有想到過或難以靠手動窮舉推敲出的方案,從而獲得性能或經濟性方面更優的成果。如在中國金茂的某江西項目中, AI 生成的方案不僅在時間上僅為原有方式的 20%,項目總貨值上比原有方案增加了 5600 萬。在 2021 年 9 個月的地產拍地市場中,團隊累積完成了近千個項目及近萬個方案,協助客戶成功拿地數十塊。
「小庫設計云」AI 生成實際住區拿地方案
4.2 成本降低與節能減排
在實際的建筑建造環節,小庫團隊將 AI 與 DFMA(Design For Manufacture and Assembly 為裝配和制造而設計)的設計方法結合,與建筑業巨頭中建集團旗下中建科工攜手,將箱型裝配式建筑與 AI 設計生成、L5 級 ABC “數 - 模 - 規” 聯動深度結合,實現了投資 - 方案 - 成本在未實施前的實時聯動,減少了 80% 設計和成本變更,并有效降低總體裝配式構件 SKU 和開模量,實現 50% 以上節能減排。在獲得性能與經濟結果更優的同時,將 “原生數據” 與工廠產線、智能建造現場有效打通為 “孿生數據”。在深圳某酒店項目中實現了 4 個月完成從設計到建造,將總工期大幅縮短了至少 14 個月,節省了 60% 以上的時間。
「小庫裝配云」與中建科工合作的深圳某酒店,全過程智能設計與智能建造)
L5 級智能建造模式與傳統模式對比
通過以上案例可以看到,L5 級的 AIGC 可以從數據產生的源頭開始,通過在產業鏈各環節細分場景的具體應用,能夠有效輔助產業鏈獲得更高的全生命周期質量、效益和核心競爭力。未來,AIGC 從文字和圖片邁向更高維的 3D 和 L5 級內容成果是大勢所趨,這不僅是建筑產業對人工智能的未來預期,也是各垂直產業的共同的期待。
注:*在圖層無明顯錯誤的基礎上,當前小庫AI識別針對標準構件(門、窗、墻、樓梯、電梯、空調、消火栓、車位)等識別準確率為99.8%(測試集為上千張建筑平面CAD圖紙,圖紙來源是數家頭部開發商的內部標準庫)
審核編輯 :李倩
-
AI
+關注
關注
87文章
31513瀏覽量
270330 -
3D模型
+關注
關注
1文章
72瀏覽量
15852 -
ChatGPT
+關注
關注
29文章
1568瀏覽量
8057 -
AIGC
+關注
關注
1文章
367瀏覽量
1606
原文標題:被ChatGPT帶飛的AIGC,能為垂直產業做些什么?
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論