文/VR陀螺 WiZ
2023 年,AIGC 的風(fēng)終于還是吹到了 3D 領(lǐng)域。一句話生成虛擬世界的口號從年初喊到了年尾,更別提剛剛結(jié)束的 CES 2024,直接將 AI 視作編織行業(yè)未來的變革技術(shù)。
AIGC 熱潮下,單視角生成多視角方案成為技術(shù)熱門;形態(tài)穩(wěn)定、紋理優(yōu)化成為新品焦點,重建大模型 LRM 的出現(xiàn)為市場結(jié)構(gòu)帶來全新變化……這一年,AIGC為虛擬內(nèi)容行業(yè)帶來了什么又改變了什么,VR陀螺對此專門與通義實驗室XR算法科學(xué)家董子龍進行對話,以下關(guān)于3D AIGC模型的盤點及趨勢總結(jié)或許可以給出一些答案。
2023 年以 ChatGPT 的火爆全球作為開局,以支持圖像輸入的多模態(tài)大模型 GPT-4 的推出作為契機,大模型的多模態(tài)計算潛力開始在內(nèi)容生成領(lǐng)域發(fā)揮技術(shù)優(yōu)勢,全球頂尖的科技公司和想要抓住 AIGC 風(fēng)口的初創(chuàng)企業(yè)開始爭先恐后地推出 AI 驅(qū)動的 3D 模型生成器。
梳理過去一年全球 AI 企業(yè)以及其他科研機構(gòu)推出的模型后,董子龍認為目前的 3D AIGC 方案主要還是包括兩種常見的技術(shù)路徑。
一是從 3D 數(shù)據(jù)直接回歸三維模型的方案。代表模型有 OpenAI 于 2023 年 5 月推出的的 Shap-E。
圖源:OpenAI
Shap-E 是一種在 3D 隱式函數(shù)空間上的潛擴散模型,能夠直接生成隱式函數(shù)的參數(shù)提取紋理網(wǎng)格模型。
訓(xùn)練 Shap-E 分為兩個階段:首先訓(xùn)練編碼器,該編碼器將 3D 資產(chǎn)確定性地映射到隱式函數(shù)的參數(shù)中;其次在編碼器的輸出上訓(xùn)練條件擴散模型。
該類模型的優(yōu)勢在于生成速度快,且生成效果較為穩(wěn)定。當在配對的3D 和文本數(shù)據(jù)大型數(shù)據(jù)集上進行訓(xùn)練后,Shap-E 能夠在幾秒鐘內(nèi)生成復(fù)雜而多樣的 3D 資產(chǎn)。
Shap-E的生成效果展示(圖源:Shap-E)
但其缺點同樣明顯。該技術(shù)路徑的可行性建立在大量的 3D 數(shù)據(jù)訓(xùn)練之下,而目前 AIGC 領(lǐng)域的 3D 數(shù)據(jù)集合仍較為匱乏,僅有幾百萬量級。同時,該技術(shù)在通常情況下無法生成高質(zhì)量紋理,如果要給三維模型進行紋理貼圖,仍舊需要 2D 生成模型的助力。
因此,目前行業(yè)內(nèi)應(yīng)用更廣泛的另一種技術(shù)路徑,即借助 2D 擴散模型生成 3D 模型。該方法實現(xiàn)從文本到 3D 模型跨越的關(guān)鍵在于兩個技術(shù)點。
首先是 Loss 的計算,利用預(yù)訓(xùn)練的 2D 文生圖模型,計算出三維表征渲染出的 2D 圖像和文本之間的 Loss,間接判斷渲染出的圖像是否符合 2D 擴散模型的先驗知識。
其次是通過 NeRF、DMTet 等可微分、可渲染的三維表征渲染 2D 圖像,然后用2D文生圖模型監(jiān)督蒸餾,將Loss得到的梯度回傳到這些表征當中,從而實現(xiàn)幾何形狀和顏色的優(yōu)化,得到可用的 3D 模型。
結(jié)合這兩個技術(shù)點,就可以在空間隨機采樣視點、渲染圖像、計算 loss、回傳梯度,并最終得到 3D 模型,該技術(shù)框架最早由谷歌 DreamFusion 提出。
目前大多數(shù) 3D 生成方法都借助2D擴散模型的技術(shù)框架形成了各自優(yōu)化的特點。代表模型有“RichDreamer”、“Make-It-3D”、以及“One-2-3-45++”等。
DreamFusion的生成效果展示(圖源:DreamFusion)
2023 年 8 月,來自上海交通大學(xué)、HKUST、微軟研究院的研究者們提出了 Make-It-3D 方法,通過使用 2D 擴散模型作為 3D-aware 先驗,從單個圖像中創(chuàng)建高保真度的 3D 物體。該框架不需要多視角圖像進行訓(xùn)練,并可應(yīng)用于任何輸入圖像。
圖源:Make-It-3D
2023 年 12 月,加州大學(xué)、清華大學(xué)、斯坦福大學(xué)共同開發(fā)了全新模型“One-2-3-45++”并將其開源,該模型僅通過圖片,就能在 1 分鐘內(nèi)將一張 RGB 圖像轉(zhuǎn)換為高精準 3D 模型。
One-2-3-45++的核心技術(shù)原理主要包括三大塊:一致的多視角圖像生成、基于多視角的 3D 重建以及紋理優(yōu)化。以單張圖像作為輸入,One-2-3-45++通過微調(diào) 2D 擴散模型生成一致的多視角圖像,再將多視角圖像通過一對 3D 原生擴散網(wǎng)絡(luò)提升為 3D 模型,能夠在 20 秒內(nèi)生成初始紋理網(wǎng)格,并在大約一分鐘內(nèi)提供精細網(wǎng)格。
圖源:One-2-3-45++
RichDreamer 則出自通義實驗室XR,使用 G-buffer Objaverse 來訓(xùn)練多視角法向深度擴散模型(ND-MV) 和深度條件控制的多視角反照率擴散模型(Albedo-MV),通過分數(shù)蒸餾采樣(SDS)生成 3D 對象。
圖源:RichDreamer
在 2D 擴散生成 3D 的方案中,2D RGB擴散模型缺乏幾何先驗,僅依靠 2D RGB 擴散模型來優(yōu)化表面法線會導(dǎo)致優(yōu)化不穩(wěn)定,并且自然圖像中材質(zhì)和照明的解耦是另外一個具有挑戰(zhàn)性的問題。
而 RichDreamer 通過在大規(guī)模2D數(shù)據(jù)集LAION-2B 和 3D G-buffer Objaverse 數(shù)據(jù)集上訓(xùn)練法向深度擴散模型,同時引入反照率擴散模型以減輕生成材料中的混合照明效應(yīng),顯著增強了細節(jié)的豐富性以及建模的穩(wěn)定性。
圖源:RichDreamer
除了以上代表模型外,2023 年值得關(guān)注 3D AIGC 模型還有很多,包括 LDM3D-VR、DMV3D、Zero-1-to-3、Neuralangelo、Magic3D、Fantasia 3D、Prolific-Dreamer,以及踩著 2023 的尾巴,成為 2024 年第一個矚目模型的 Genie 1.0 等。這些 AI 模型側(cè)重點各不相同,但都為剛剛起步的 3D AIGC 行業(yè)提供了不同的思路。
來自英偉達和約翰霍普金斯大學(xué)的研究人員提出的“Neuralangelo”可以利用神經(jīng)網(wǎng)絡(luò)重建 3D 物體,被 TIME 雜志評為“2023 年 200 個最佳發(fā)明”之一。
Meta 生成式AI 團隊發(fā)布了名為 ControlRoom3D 的 3D 室內(nèi)設(shè)計生成系統(tǒng),只需要給出房間布局和風(fēng)格描述,AI 算法就能自動渲染出精細的3D 幾何結(jié)構(gòu)和材質(zhì)紋理。
蘋果公司正在研究的生成式 AI 技術(shù)“HUGS”經(jīng)過訓(xùn)練后,可以在約 30 分鐘內(nèi)生成數(shù)字人類分身,拓寬了 3D AIGC 技術(shù)的使用場景。
“一句話生成 3D 模型”、“秒建虛擬世界”的口號已經(jīng)喊了一年,但 2023 年人們眼中真正做到能夠商用的“又快又好”的 3D AIGC 模型似乎仍未出現(xiàn)。
3D AIGC 模型的難點之一是如何在有限的 prompt 條件下盡可能準確還原。在嘗試使用多個 3D AIGC 模型后我們可以發(fā)現(xiàn),2023 年市面上大多數(shù)模型對于基礎(chǔ)的指令理解能力其實已經(jīng)十分優(yōu)秀,但對于日常生活中不太常見的關(guān)鍵詞很難做到準確識別建模,而當描述語句中出現(xiàn)多個角色時,甚至還會出現(xiàn)元素雜糅現(xiàn)象。
可能出現(xiàn)的多視角不一致問題(圖源:Repaint123)
在董子龍看來,3D 生成中的多對象雜糅問題主要有兩個原因:
首先是文生圖模型的底層邏輯。由于文生圖模型本質(zhì)是對圖像信息的學(xué)習(xí)整合,在融合數(shù)據(jù)庫中數(shù)十億級別圖像的過程中,不可避免會出現(xiàn)元素雜糅現(xiàn)象。這就要求圖像數(shù)據(jù)集要更加干凈,更有物體針對性。
其次是訓(xùn)練數(shù)據(jù)的文本問題。前文提到,目前主流的文本生成 3D 方法大多使用預(yù)訓(xùn)練的 2D 擴散模型,通過 SDS 優(yōu)化神經(jīng)輻射場(NeRF)生成 3D 模型。但這種預(yù)訓(xùn)練擴散模型提供的監(jiān)督僅限于輸入的文本本身,并未約束多視角間的一致性,導(dǎo)致生成模型幾何結(jié)構(gòu)差。
當我們用中文 prompt 去命令一個由英文數(shù)據(jù)訓(xùn)練的模型時,模型需要通過將中文 prompt 翻譯成英文后再進行處理,這會帶來更多的未知的命令偏差。這一問題要求模型廠商對用戶輸入的 prompt 進行優(yōu)化微調(diào),還需要對用戶進行 prompt 提示,給予沒有經(jīng)驗的使用者一些幫助。
針對多視角不一致的雅努斯問題(Janus Problem),業(yè)內(nèi)公認的關(guān)鍵解決方案在于“文本/圖像+相機視角”的組合約束,比如說“Zero-1-to-3”方案,其出發(fā)點就在于利用大規(guī)模 3D 物體數(shù)據(jù)集以及固定相機視角的渲染圖像,以保證生成 3D 物體的幾何結(jié)構(gòu)一致性。
相機視角采樣(圖源:Repaint123)
該技術(shù)路線目前已經(jīng)廣泛應(yīng)用在3D生成的框架中,例如字節(jié)的MVDream 、港大的Wonder3D、騰訊的 SweetDreamer和SyncDreamer。
其中,MVDream 主要是從視頻擴散模型中得到靈感,能同時生成多個視角(4 個)的圖像,并在在 4 個視角間建立交叉注意力,以保持較好效果的一致性。
此外,RichDreamer 也在訓(xùn)練深度法向擴散模型之外部分延續(xù)了 MVDream 的思路,通過多視角深度法向擴散模型解決雅努斯問題。
國內(nèi)類似的工作還有很多。
2023 年 12 月,清華大學(xué)劉永進教授課題組提出了一種基于擴散模型的文生 3D 新模型“TICD”(Text-Image Conditioned Diffusion),在 T3Bench 數(shù)據(jù)集上達到了 SOTA 水平,無論是不同視角間的一致性,還是與提示詞的匹配度,都比此前大幅提升。
圖源:TICD
根據(jù)論文信息,TICD 首先采樣若干組正交的參考相機視角,使用 NeRF 渲染出對應(yīng)的參考視圖,然后對這些參考視圖運用基于文本的條件擴散模型,約束內(nèi)容與文本的整體一致性。
在此基礎(chǔ)上選取若干組參考相機視角,并對于每個視角渲染一個額外新視角下的視圖。接著以這兩個視圖與視角間的位姿關(guān)系作為新條件,使用基于圖像的條件擴散模型約束不同視角間的細節(jié)一致性。
結(jié)合兩種擴散模型的監(jiān)督信號,TICD 可對 NeRF 網(wǎng)絡(luò)的參數(shù)進行更新并循環(huán)迭代優(yōu)化,直到獲得最終的 NeRF 模型,并渲染出高質(zhì)量、幾何清晰且與文本一致的 3D 內(nèi)容。
TICD 方法將以文本為條件的和圖像為條件的多視角圖像納入 NeRF 優(yōu)化的監(jiān)督信號中,分別保證了 3D 信息與提示詞的對齊和 3D 物體不同視角間的強一致性,有效提升了生成 3D 模型的質(zhì)量。
圖源:TICD
在能夠準確還原文本信息之后,3D AIGC 模型的另一難點則是如何盡可能快速生成模型。畢竟越能根據(jù)輸入 prompt 快速生成結(jié)果,就越能更快地對模型的錯誤理解做出更正,提高建模效率。
以 RichDreamer 為例。在董子龍的介紹中,該模型采用了優(yōu)化的框架,生成過程中需要進行數(shù)千次的迭代,其中的耗時主要出現(xiàn)在兩個階段。一是 NeRF 的圖像渲染,二是 SDS Loss 的計算。
其一的優(yōu)化方向在于采用更高效的 NeRF 方案,例如 3D 高斯?jié)姙R算法,可以將生成時間降低為分鐘級。
另一個優(yōu)化方向則是放棄對 SDS Loss 的優(yōu)化,重新回到網(wǎng)絡(luò)前向推理的框架,該方法可以從圖片或文本直接推理出 NeRF 場,3D 生成時間可以直接降到秒級。但這兩種方法在生成效果上都會出現(xiàn)損失,且生成的結(jié)果也較為單一。
在商用模型上,則出現(xiàn)了 Tripo 以及 Genie 1.0 等為代表的主流兩階段生成方式。
圖源:Luma AI
其中,Genie 1.0 號稱只需要輸入一句文字提示就能在 10 秒內(nèi)生成四個高保真的 3D 模型,用戶還可以從中選擇,并在三維網(wǎng)格界面內(nèi)對模型的紋理進行編輯。
但實際使用下來可以發(fā)現(xiàn),Genie 1.0 的 10 秒生成僅限第一階段的草圖模型階段,在二階段將“半成品”生成高分辨精細模型的過程仍需要花費數(shù)十分鐘時間。
使用 Genie 1.0 生成的模型
雖然并沒能真正做到秒生模型,但從生成結(jié)果上方看,Genie 1.0 生成的最終結(jié)果在立體度和真實感方面表現(xiàn)不俗。同時,Genie 1.0 不僅內(nèi)置編輯功能,生成的模型還能導(dǎo)出到 Blender、Unity 等軟件中進一步完善,無縫銜接游戲、VR 等 3D 內(nèi)容項目。因此,這種兩階段生成方式目前看來還是更加實用也更加成熟,很大概率將在 2024 年繼續(xù)出彩。
2023年值得關(guān)注的 3D-AIGC 開源模型
3D AIGC 的火熱之下,最先被抬上“崛起隊列”的是游戲、動畫影視,以及以 XR 為代表的的虛擬內(nèi)容領(lǐng)域,其核心都在于提高創(chuàng)建3D資產(chǎn)的效率。
3D AIGC 在游戲領(lǐng)域的一大應(yīng)用是復(fù)雜場景生成。相對于人物、動物等游戲可活動角色,3D 場景對建模質(zhì)量要求不高,且可以容忍一定程度的模型重復(fù),但由于涉及大空間布局,3D 場景并不適合單物體建模流程。
3D AIGC 模型生成場景(圖源:3D-GPT)
從結(jié)構(gòu)上看,可交互的 3D 場景基本都是由空間和物體構(gòu)成的,如果直接將文生 3D 的框架直接應(yīng)用于場景生成的話,模型漸進式貼片方式生成的場景質(zhì)量并不可控,且最終生成的場景實際上只是一個大型的一體式模型,并沒有分開表達,這在商業(yè)應(yīng)用場景中的價值并不高。
因此,對于文生 3D 場景的較好思路在于先用輸入文本生成空間,再在空間中生成物體布局。每個布局都使用包圍盒表示,再在每個包圍盒中解析對應(yīng)的文本信息,并用文生 3D 模型生成該位置的 3D 對象,最終集合成一個強結(jié)構(gòu)性的 3D 場景。此類對輸入文本的結(jié)構(gòu)化理解也是現(xiàn)在大語言模型更擅長的。
2023 年 2 月,Blockade Labs 上線 AI 工具“Skybox AI”,使用者無需代碼基礎(chǔ)和高性能硬件即可快速構(gòu)建一個超高清 6K 分辨率的 360 度全景圖像。Skybox AI 能夠?qū)⑸傻?2D 圖像自動升維為 3D 自由探索版,用戶可以根據(jù)鼠標所指的視點在圖片中自由漫游,實現(xiàn)動態(tài)光線變化。
圖源:Skybox AI
這些 3D 場景的 AI 化生產(chǎn)流程一定程度上是也對游戲引擎極佳的技術(shù)補充。像 Unity 這樣的 3D 游戲引擎目前更多的是充當資產(chǎn)管理工具和應(yīng)用平臺的角色,本身并不負責(zé)生成 3D 資產(chǎn),3D AIGC 技術(shù)的出現(xiàn)將使更多的游戲開發(fā)者將能夠在 AI 加持下以更低的成本去開發(fā) 3D、VR 內(nèi)容。此前,Unity 也一直在支持集成第三方的 AI 生成能力,并在人物、物體的是 AI 生成方向已有部分動作。而諸如樹、河流等環(huán)境矢量場景元素的 AI 生成應(yīng)用更為廣泛。
只是由于多維參數(shù)化生成,物體多樣性方面受限較多,因此,董子龍認為 3D AIGC 技術(shù)會成為游戲生產(chǎn)環(huán)節(jié)的一個比較重要的工具,但其在游戲領(lǐng)域更多起到的還是輔助作用,難以在目前階段帶來突破性的變化。
圖源:Unity
主要原因在于目前整個游戲的生產(chǎn)鏈路已經(jīng)非常成熟,并不會馬上因為 AI 的介入而顛覆整個生產(chǎn)過程,這一點哪怕是文本生成、圖像生成模型也還沒到完全可替代人工的程度。
不過可以肯定的是,隨著 3D AIGC 技術(shù)成熟到在生產(chǎn)效率、成品質(zhì)量都足以媲美傳統(tǒng)游戲 3D 內(nèi)容生產(chǎn)模式的時候,AI 在游戲領(lǐng)域勢必發(fā)揮更大的作用。
畢竟,智能時代下,無論是在個人場景下的各類消費電子產(chǎn)品 APP,還是公共場景下的各類教育、醫(yī)療、文旅產(chǎn)品的視覺展示,對于 3D 技術(shù)的使用率都有增無減。建立在虛擬世界基礎(chǔ)上的 XR 行業(yè)更是如此,3D AIGC 技術(shù)的出現(xiàn)大概率會對尚在發(fā)展初期的 XR 內(nèi)容行業(yè)帶來顛覆性的變革。
圖源:索尼
設(shè)想一下,在之前我們戴上 XR 設(shè)備之后往往會變得無所適從,應(yīng)用場景的缺失導(dǎo)致我們最多只是在體驗游戲、影音之后就草草結(jié)束。而當 AI 生成技術(shù)足夠成熟之后,我們一戴上眼鏡便可以通過語言手勢創(chuàng)造出一個屬于自己的完整三維世界,所有的角色物體場景都可以“一句話生成”,動態(tài)且可交互。
此外,大語言模型還可以將 3D 空間中的每一個元素“智能化”,電影《黑鏡》中的一些科幻場景將變?yōu)楝F(xiàn)實。如果這些設(shè)想成真的話,XR 的吸引力將很難抵擋得住。
而這一切的前提是 3D AIGC 技術(shù)能成熟到足以作為合格的生產(chǎn)力工具。
目前 Tripo AI、Meshy AI、LUMA AI 等都推出自己的平臺,也逐漸的走向應(yīng)用場景。董子龍樂觀估計,3D 生成模型真正成為生產(chǎn)力工具的時刻將出現(xiàn)在 2024 年,但如果要實現(xiàn)《黑鏡》中秒生物體的程度或許還需要兩三年。畢竟此前文生圖模型從原型到真正投入應(yīng)用也用了近兩年時間,而文生 3D 相比文生圖難度更高、挑戰(zhàn)更多,因此其最終成熟落地所需的準備時間并不會比文生圖模型更短。
圖源:Tripo AI
這一過程目前還在加速。從技術(shù)上看,3D AIGC 技術(shù)目前已經(jīng)出現(xiàn)了一些技術(shù)突破的路徑。
其中既包括3D高斯?jié)姙R等三維表征上的技術(shù)突破,也包括針對物體圖像三維數(shù)據(jù)的數(shù)據(jù)集的突破,比如MVImgNet數(shù)據(jù)集。
MVImgNet 是由港中大(深圳)韓曉光團隊推出的圖像數(shù)據(jù)集,包含了超過 21 萬個視頻的 650 萬幀圖像,涵蓋了 238 個類別的真實世界物體。MVImgNet 包含了 238 個日常生活中常見的物體類別(以人為中心),其中有 65 個類別與 ImageNet (以植物、動物等自然物體為中心)重疊。得益于數(shù)據(jù)的多視角特性,MVImgNet 在圖像分類、自監(jiān)督對比學(xué)習(xí)以及顯著性物體檢測等任務(wù)上表現(xiàn)優(yōu)秀,生成模型獲得了很好的視角一致性。
圖源:MVImgNet
在以上技術(shù)難題實現(xiàn)突破后,3D AIGC 才有可能作為一項生產(chǎn)力工具,以適配 XR 內(nèi)容的生產(chǎn)模式。
總的來看,以 2022 年末的 DreamFusion 為開端,3D AIGC 技術(shù)基本已經(jīng)實現(xiàn)了從無到有的跨越。從 0 到 1 是最難的,3D AIGC 技術(shù)已經(jīng)跨過了這一個坎,剩下的就是從 1 開始的不斷細化。
從技術(shù)上來看,2023 年 3D AIGC 領(lǐng)域出現(xiàn)了熱門的單視角生成多視角的技術(shù)方案,圖生 3D 成為比文生 3D 更為貼近應(yīng)用場景的生成模式。
而從應(yīng)用場景上看,所有與 3D 資產(chǎn)密不可分的行業(yè)未來都會成為 3D AIGC 技術(shù)的潛在客戶,在這方面游戲市場搶先入局,但以 XR 為代表的虛擬產(chǎn)業(yè)將成為更大贏家。
如果將視野拉得更長點,3D視頻生成正在路上;國家廣播電視總局批復(fù)同意在華為技術(shù)有限公司設(shè)立“超高清技術(shù)創(chuàng)新與應(yīng)用國家廣播電視總局重點實驗室”,鼓勵 4K/8K 電視機、虛擬現(xiàn)實終端、裸眼 3D 顯示終端等產(chǎn)品入戶,AIGC+XR 迎來新應(yīng)用場景??梢灶A(yù)見,在世界嘗試和了解 AIGC 的 2023 年之后,AI 大爆發(fā)的 2024 年將帶給我們更多新變化,AI 驅(qū)動內(nèi)容生產(chǎn)的時代已經(jīng)到來。