文/VR陀螺
騰訊ARC Lab又有新動(dòng)作,這一次,生成式AI的焦點(diǎn)放在了3D生成上。
不久前,騰訊ARC Lab發(fā)布了一種新的AI模型“InstantMesh”,可以使用單張靜態(tài)照片渲染3D對(duì)象。
圖源:InstantMesh
根據(jù)騰訊研究院的說法,InstantMesh是一種用于從單個(gè)圖像即時(shí)生成 3D 網(wǎng)格的前饋框架,能夠在10秒內(nèi)創(chuàng)建多樣化的 3D 資產(chǎn)。通過網(wǎng)絡(luò)圖片實(shí)時(shí)轉(zhuǎn)換,InstantMesh可以生成元宇宙中的OBJ格式3D模型。
實(shí)際體驗(yàn)下來,InstantMesh生成的模型質(zhì)量見仁見智,但生成速度的確出乎意料。有用戶在社交媒體上展示了利用InstantMesh預(yù)置圖像生成3D模型的過程,并一連用“Super fast”“high quality”形容InstantMesh的輸出效果。
圖源:X
免去漫長的等待時(shí)間后,3D生成的效率這次真的提升了。
10秒內(nèi)快速3D建模,還附贈(zèng)模型六視圖
InstantMesh的架構(gòu)與Instant3D類似,都是由多視圖擴(kuò)散模型和稀疏視圖重建模型組成。整個(gè)3D生成過程拆分為了兩步:
首先,在給定輸入圖像后,使用多視圖擴(kuò)散模型生成 3D 一致的多視圖圖像;然后,利用稀疏視圖大型重建模型直接預(yù)測3D網(wǎng)格,通過集成等值面提取模塊(即 FlexiCubes)渲染 3D 幾何形狀,并將深度和法線等幾何監(jiān)督直接應(yīng)用于網(wǎng)格表示以增強(qiáng)結(jié)果。幾秒鐘內(nèi)就可以完成建模。
圖源:InstantMesh
1、多視圖擴(kuò)散模型
面對(duì)單一輸入圖像,InstantMesh選擇了將具有可靠的多視圖一致性和定制的視點(diǎn)分布的Zero123++集成到框架之中,通過多視圖擴(kuò)散模型生成圍繞對(duì)象調(diào)整的六個(gè)新視圖,捕捉全方位視角。同時(shí)微調(diào)Zero123++來合成一致的白色背景圖像,確保后期稀疏視圖重建過程的穩(wěn)定性。
2、大型稀疏視圖重建模型
InstantMesh稀疏視圖重建模型架構(gòu)在Instant3D的基礎(chǔ)上進(jìn)行了修改和增強(qiáng),訓(xùn)練數(shù)據(jù)集由Objaverse 80萬個(gè)對(duì)象初始池中篩選出的大約 27 萬個(gè)高質(zhì)量實(shí)例組成。
在訓(xùn)練過程中,InstantMesh為了與 Zero123++ 的輸出分辨率保持一致,將所有輸入圖像的大小都調(diào)整為 320×320,并將 Zero123++ 生成的 6 張圖像作為重建模型的輸入,以減輕多視圖不一致問題。
最后,生成的多視圖圖像進(jìn)入基于Transformer的大型稀疏視圖重建模型,進(jìn)行精細(xì)化的3D網(wǎng)格重建。
圖源:InstantMesh
而為了進(jìn)一步提升3D模型的質(zhì)量與逼真度,InstantMesh還引入了等值面提取模塊FlexiCubes,可以直接作用于網(wǎng)格表示,將深度和法線等關(guān)鍵幾何信息融入重建過程,猶如為3D模型披上了一件質(zhì)地細(xì)膩、紋理豐富的外衣。得益于此,InstantMesh生成的模型在視覺上更為細(xì)膩,在幾何結(jié)構(gòu)上更為精準(zhǔn),從內(nèi)到外優(yōu)化全面。
整個(gè)圖像到3D的轉(zhuǎn)化過程在短短10秒內(nèi)即可完成,這無疑為創(chuàng)作者開啟了全新的效率時(shí)代。
圖源:InstantMesh
無論是專業(yè)設(shè)計(jì)師尋求快速迭代設(shè)計(jì)方案,還是普通用戶渴望將生活瞬間轉(zhuǎn)化為立體記憶,InstantMesh都能快速滿足需求。更重要的是,其強(qiáng)大的泛化能力確保了在面對(duì)各類開放域圖像時(shí),都能生成合理且連貫的3D形狀,打破了傳統(tǒng)方法對(duì)特定數(shù)據(jù)集的依賴,實(shí)現(xiàn)了萬物皆可3D的跨越。
騰訊開發(fā)團(tuán)隊(duì)聲稱實(shí)驗(yàn)結(jié)果表明InstantMesh的性能顯著優(yōu)于其他最新的圖像轉(zhuǎn) 3D 方法,那么,站在使用者的角度,InstantMesh的輸出效果相比其他同類型的模型,是否真的做到了又快又好呢?
新的家具建模神器
InstantMesh的生成速度有多快呢,實(shí)測從照片導(dǎo)入到最終的模型生成總用時(shí)不超過50秒,建模過程則基本維持在10秒左右。
對(duì)于模型質(zhì)量,InstantMesh聲稱其生成的 3D 網(wǎng)格呈現(xiàn)出更加合理的幾何形狀和外觀。
實(shí)際使用下來發(fā)現(xiàn),InstantMesh生成的模型具有完成清晰的表面,并且結(jié)構(gòu)完整,這一點(diǎn)在生成家具等物體時(shí)尤為明顯。
可以看到,生成的六視圖以及最終模型不僅完美復(fù)現(xiàn)了圖片視角的椅子材質(zhì)結(jié)構(gòu)形態(tài),甚至連圖片中不可見的椅面連接處結(jié)構(gòu)也復(fù)現(xiàn)得合理且準(zhǔn)確。
而當(dāng)圖片中出現(xiàn)兩個(gè)以上物體時(shí),InstantMesh不僅能復(fù)現(xiàn)椅子和桌子的不同形態(tài),甚至連二者的位置關(guān)系也完全一致。
同樣的,在生成手辦、玩偶等虛擬形象的3D模型時(shí),InstantMesh的表現(xiàn)也十分出色。
生成的3D模型幾乎已經(jīng)可以看做是圖片內(nèi)容的一比一手辦了,無論是在色彩、結(jié)構(gòu)還是體積感上都處理得已經(jīng)接近商用水準(zhǔn)。只不過還是有瑕疵存在,在識(shí)別玩偶圖像中衣領(lǐng)部分時(shí),模型似乎不知道如何呈現(xiàn)衣領(lǐng)部分,而是簡單的將其去除,導(dǎo)致玩偶3D模型看起來脖子過長。
而在處理動(dòng)物等現(xiàn)實(shí)生物的圖像時(shí),InstantMesh就開始顯得力不從心了。
可以看到,在處理幾何形狀簡單的動(dòng)物形象(比如下圖的鳥)時(shí),InstantMesh水平仍舊在線,對(duì)于圖片整體十分還原,唯一的不足出現(xiàn)在摳圖上,導(dǎo)致模型腿部缺失,為3D建模拖了后腿。
而面對(duì)更加復(fù)雜的動(dòng)物圖像,InstantMesh雖然盡力還原除了模型的大概,但也出現(xiàn)了臉部細(xì)節(jié)缺失、背部材質(zhì)缺失等不足。
甚至,在面對(duì)連人類都會(huì)疑惑的“奇怪動(dòng)物”時(shí),InstantMesh同樣也無從下手,當(dāng)然,這一點(diǎn)無法苛責(zé)InstantMesh,畢竟目前的AI還無法向人類這樣理解世界,至少在圖片視角上,InstantMesh已經(jīng)做到了還原,也算是合格了。
在論文中,InstantMesh不僅展示了自身的能力,還與TripoSR、LGM等類似的生成模型作了效果對(duì)比,稱“TripoSR結(jié)果令人滿意但缺乏想象力”“LGM等具有想象力但明顯多視圖不一致”。
那么,在同樣的輸入下,TripoSR和LGM的實(shí)際表現(xiàn)如何?
可以看到,TripoSR生成模型的質(zhì)量在細(xì)節(jié)把控上優(yōu)于InstantMesh,但相比之下,TripoSR對(duì)于體積感的把握并沒有能夠勝過InstantMesh,生成的企鵝形象未能像圖片展示的一樣飽滿,從側(cè)面看仿佛被砍了一刀。
而LGM生成的模型完美呈現(xiàn)了圖片中沒有展示的部分,且模型材質(zhì)、形態(tài)控制出色,不足之處在于模型出現(xiàn)了輕微的重影,且在尾巴、后腿部分出現(xiàn)了不必要的模型粘連增生。
可以說,至少在生成模型的結(jié)果以及模型的可用程度上,InstantMesh已經(jīng)達(dá)到了TripoSR的水準(zhǔn),并略優(yōu)于LGM,并且由于生成的時(shí)間被壓縮至10秒左右,大大加速了建模效率。
但同時(shí),受制于輸出過程中的分辨率控制,InstantMesh輸出的圖像在清晰度上明顯遇到了瓶頸,雖然研發(fā)團(tuán)隊(duì)有意在未來的工作中解決這一限制,但即使解決了清晰度問題,由于客觀存在的多視圖不一致、細(xì)節(jié)建模問題,InstantMesh的建模效果離商用也還存在著一定差距。
至少目前來看,InstantMesh的應(yīng)用場景更多可能還是在游戲3D資產(chǎn)等對(duì)建模精細(xì)度要求不高的領(lǐng)域上。當(dāng)然,作為新一代的家具建模神器,在電商領(lǐng)域未來或許也能有InstantMesh的一席之地。
在蘋果Vision Pro推出后,電商平臺(tái)百思買 (Best Buy)、淘寶等都宣布了相關(guān)原生應(yīng)用上線計(jì)劃。
圖源:百思買
從百思買已經(jīng)公布的電商購物應(yīng)用《Best Buy Envision》來看,用戶在購買之前就可以在Vision Pro界面中瀏覽產(chǎn)品的3D模型外觀,這意味著一款擁有數(shù)以萬計(jì)商品的購物軟件的背后有著同樣數(shù)量級(jí)的3D資產(chǎn)需求,而電商產(chǎn)品的迭代速度之快又要求企業(yè)能以速度更快、成本更低的方式完成商品建模,這使得以InstantMesh為代表的AI建模未來有機(jī)會(huì)成為電商人的標(biāo)配工具。
3D生成的終點(diǎn)不是場景建模
InstantMesh還在努力,但現(xiàn)在的3D生成技術(shù)已經(jīng)不滿足于純粹的場景物體建模了,時(shí)下熱門的數(shù)字人行業(yè)是更大的市場。
韓國數(shù)字人女團(tuán)(圖源:PULSE9)
3D生成技術(shù)在數(shù)字人領(lǐng)域的應(yīng)用前景更多體現(xiàn)在超寫實(shí)3D數(shù)字人建模上。
根據(jù)上海交通大學(xué)人工智能研究所的一篇論文顯示,AI主要通過數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)真實(shí)的數(shù)據(jù)分布、對(duì)數(shù)據(jù)分布進(jìn)行采樣以生成新的樣本表示,并對(duì)數(shù)據(jù)表示進(jìn)行渲染從而打造出高度真實(shí)的三維數(shù)字人。
而在3D數(shù)字人模型的表示方式上,常見的表示方式可以分為顯式表示和隱式表示兩種形式。其中, 顯式表示一般直接給出滿足條件的所有元素的集合,如點(diǎn)云包含三維空間中點(diǎn)的位置,多邊形網(wǎng)格則包含頂點(diǎn)位置及其連接關(guān)系等信息。
圖源:上海交通大學(xué)智能研究所
這一方法通常被應(yīng)用在游戲、影視制作等工業(yè)應(yīng)用中,優(yōu)點(diǎn)在于傳統(tǒng)的渲染管線已經(jīng)能對(duì)其進(jìn)行高效處理,但缺點(diǎn)在于生成模型的精細(xì)程度會(huì)受到分辨率限制,在對(duì)數(shù)字人高擬真外表的要求下,模型細(xì)節(jié)的增加會(huì)造成模型復(fù)雜度的上升。
在分辨率的硬性要求下,隱式表示就要好用得多。僅僅需要符號(hào)距離函數(shù)、水平集等三維空間約束,隱式表示就能夠使數(shù)字人模型突破空間分辨率的限制,此外,使用深度符號(hào)距離函數(shù)、神經(jīng)輻射場等神經(jīng)網(wǎng)絡(luò)逼近隱式函數(shù)還能恢復(fù)出數(shù)字人的精細(xì)幾何與紋理,相比顯式表示更加靈活。
國內(nèi)團(tuán)隊(duì)推出的文本指導(dǎo)的漸進(jìn)式3D生成框架DreamFace就結(jié)合了視覺-語言模型、隱式擴(kuò)散模型和基于物理的材質(zhì)擴(kuò)散技術(shù),可以生成符合計(jì)算機(jī)圖形制作標(biāo)準(zhǔn)的3D數(shù)字人形象。
DreamFace不僅支持基于文本提示的發(fā)型和顏色生成,生成的模型還具備動(dòng)畫能力,能夠提供更細(xì)致的表情細(xì)節(jié),并且能夠精細(xì)地捕捉表演。
圖源:DreamFace
而在國外,更有以谷歌DreamHuman為代表的的文字生成帶動(dòng)畫3D數(shù)字角色技術(shù)。
DreamHuman將大型文本到圖像合成模型、神經(jīng)輻射場和統(tǒng)計(jì)人體模型連接到新的建模和優(yōu)化框架中,使得生成具有高質(zhì)量紋理和特定要求的動(dòng)態(tài)3D人體模型成為可能。
圖源:DreamHuman
經(jīng)過完整的生成式三維數(shù)字人建模流程之后, 生成模型將學(xué)習(xí)到數(shù)字人的先驗(yàn)信息, 針對(duì)模型進(jìn)行相應(yīng)微調(diào)即可應(yīng)用到下游任務(wù)。
特別是在數(shù)字人重建應(yīng)用中,生成式數(shù)字人模型為重建任務(wù)提供了有效的先驗(yàn)約束,不僅有助于生成合理的重建結(jié)果,也減少了對(duì)于訓(xùn)練標(biāo)簽的要求,降低了重建成本。只需要從圖像或視頻中恢復(fù)人體和人臉的三維幾何形狀以及對(duì)應(yīng)的外觀信息, 就可以實(shí)現(xiàn)真人與虛擬數(shù)字人一對(duì)一的數(shù)字化映射。
微軟VASA-1(圖源:微軟)
代表應(yīng)用既有從單張圖片重建出目標(biāo)人3D化身,并合成支持大姿態(tài)驅(qū)動(dòng)的真實(shí)說話人視頻的“單圖 3D 說話人視頻合成技術(shù) (One-shot 3D Talking Face Generation) ”,也有無需復(fù)雜采樣和建模,只要一段幾秒鐘視頻就能實(shí)現(xiàn)人物動(dòng)作流暢的3D數(shù)字人合成工具“HUGS”(Human Gaussian Splats)。
其中,HUGS由蘋果推出,是一種基于高斯函數(shù)的生成式AI技術(shù),可以通過3D Gaussian Splatting(3DGS)和SMPL身體模型的融合創(chuàng)造出更加生動(dòng)和真實(shí)的數(shù)字人物。
圖源:HUGS
蘋果對(duì)于數(shù)字人的研究并非一時(shí)興起,而是有實(shí)際服務(wù)于產(chǎn)品的先例。在VisionPro上,用戶就可以通過前置攝像頭掃描面部信息,并基于機(jī)器學(xué)習(xí)技術(shù)和編碼神經(jīng)網(wǎng)絡(luò)生成數(shù)字分身。當(dāng)用戶使用FaceTime通話時(shí),數(shù)字分身還可以模仿用戶的面部表情及手部動(dòng)作。
可以預(yù)見,HUGS等技術(shù)的加入將使數(shù)字人形象無論是在二維平面屏幕還是三維元宇宙空間中都能演繹出生動(dòng)逼真的表演。在AI的加持下,無論是智能助手、虛擬現(xiàn)實(shí)游戲,還是視頻會(huì)議等多元場景,未來都將被“身手矯健”的虛擬人占據(jù),為用戶帶來與現(xiàn)實(shí)無異的沉浸式互動(dòng)體驗(yàn)。
而這也是InstantMesh們未來可以選擇的方向。
圖源:蘋果
從游戲場景物體到虛擬人、虛擬世界,AI正在以復(fù)制現(xiàn)實(shí)世界為目標(biāo)進(jìn)步,在相關(guān)技術(shù)進(jìn)一步完善與融合后,只需要一段文字、一張圖片、一段視頻,就可以構(gòu)建一個(gè)場景真實(shí)、人物逼真的幻象空間。
我們有理由期待AI生成技術(shù)將以更快的步伐不斷迭代,帶來愈發(fā)驚艷的視覺享受與生活便利。虛擬現(xiàn)實(shí)的好日子還在后頭。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息