文/VR陀螺 元橋
2024年AI 3D生成又邁出了很大的一步。
12月初,谷歌DeepMind發(fā)布了新一代世界模型Genie 2,可以「一張圖生成1分鐘游戲3D世界」,引發(fā)網(wǎng)友驚呼。而在谷歌發(fā)布Genie 2的前兩天,AI學(xué)者、斯坦福大學(xué)教授李飛飛公布了她的第一個空間智能創(chuàng)業(yè)項(xiàng)目:「僅憑借1張圖,就能生成一個3D游戲世界的AI系統(tǒng)」。
幾乎同一時間,雙方發(fā)布的AI模型系統(tǒng)都瞄準(zhǔn)了3D世界。前不久,庫克曾在一次采訪中表示,“對于Vision Pro來說,最大考驗(yàn)是生態(tài)系統(tǒng)。”但這又不僅僅是Vision Pro面臨的難關(guān),可以說這么多年整個XR生態(tài)的發(fā)展邏輯都是內(nèi)容要比硬件難推,算是XR行業(yè)的老問題。
如今看來,生成式AI技術(shù)的大成熟已推動AI 3D內(nèi)容創(chuàng)作進(jìn)入了新的時代。
谷歌與李飛飛的又一次推進(jìn),看見空間智能
2022年,谷歌發(fā)布AI 3D模型DreamFusion,突破了對傳統(tǒng)3D建模的限制,能夠通過簡單的文本描述自動生成高質(zhì)量的3D模型。這一創(chuàng)新使得3D建模變得更加智能化、簡便化。同時DreamFusion的到來,也為游戲、VR、電影制作等行業(yè)帶來了很大的創(chuàng)作提升。
從2023年開始,AI 3D開始受到業(yè)內(nèi)廣泛關(guān)注,當(dāng)年出現(xiàn)的新模型就有近20個,包括ProlificDreamer與One-2-3-45++等,很多團(tuán)隊(duì)已經(jīng)實(shí)現(xiàn)能夠從一句話或者一張圖生成高質(zhì)量的三維模型。
雖然AI 3D模型的發(fā)展越來越熱鬧,但也有其不足的地方,主要是大多數(shù)AI 3D生成的方法都是借助「2D擴(kuò)散模型生成3D模型」的路徑。這種路徑一大問題就是耗時,ProlificDreamer作者就曾在知乎上表示這些方法目前的主要局限之一便是生成時間太慢。此外,還需要突破兩個關(guān)鍵的技術(shù)點(diǎn),即:
首先Loss的計算,利用預(yù)訓(xùn)練的2D文生圖模型,計算出三維表征渲染出的2D圖像和文本之間的Loss,間接判斷渲染出的圖像是否符合2D擴(kuò)散模型的先驗(yàn)知識。其次通過NeRF、DMTet等可微分、可渲染的三維表征渲染2D圖像,然后用2D文生圖模型監(jiān)督蒸餾,將Loss得到的梯度回傳到這些表征當(dāng)中,從而實(shí)現(xiàn)幾何形狀和顏色的優(yōu)化,得到可用的3D模型。
DreamFusion的生成效果展示
這一套邏輯走下來,雖然相較于傳統(tǒng)的模式已經(jīng)可以便捷地生成高質(zhì)量的3D模型,但距離普通用戶創(chuàng)作還是很遠(yuǎn)。但今年李飛飛與谷歌發(fā)布新的模型,直指UGC內(nèi)容創(chuàng)作平臺,暗隱了新一輪的內(nèi)容創(chuàng)作革命。
12月3日,李飛飛創(chuàng)業(yè)公司W(wǎng)orld Labs展示了單圖生成3D世界的AI系統(tǒng)。李飛飛表示,“無論怎樣理論化這個想法,都很難用語言描述一張照片或一句話生成3D場景的互動體驗(yàn)。”
World Labs的單圖生成3D場景的效果演示
除了可以實(shí)現(xiàn)單圖探索3D世界之外,還可以改變其中物體顏色,動態(tài)調(diào)整背景光影,在場景中插入其他對象。你能夠像玩游戲那樣,自由地移動相機(jī)來探索這個3D世界,淺景深、希區(qū)柯克變焦等操作均可行。
英偉達(dá)高級研究科學(xué)家、李飛飛高徒Jim Fan總結(jié)道,“GenAI正在創(chuàng)造越來越高維度的人類體驗(yàn)快照;Stable Diffusion是2D快照;Sora是2D+時間維度的快照;而World Labs是3D、完全沉浸式的快照。”
而就在業(yè)內(nèi)都還沉浸在World Labs所展示的3D世界系統(tǒng)時,谷歌DeepMind又相繼發(fā)布了大型基礎(chǔ)世界模型Genie 2,再次點(diǎn)燃了人們的想象空間。
Genie 2可根據(jù)一張圖生成可供人類或AI智能體游玩的無限3D世界。也就是說,Genie 2不僅能創(chuàng)造出一個逼真的3D游戲場景,用戶還能在這個場景里進(jìn)行互動。此外,Genie 2還支持3D空間中的重力、光線、反射、煙霧等物理模擬以及特殊效果模擬和生成。
從靜態(tài)3D模型生成到可交互的動態(tài)3D內(nèi)容生成,3D生成的發(fā)展路徑終究還是指向了UGC內(nèi)容平臺,也就是說未來必然是每個人都可以零門檻、零成本實(shí)時創(chuàng)作3D體驗(yàn)。
眾所周知,3D內(nèi)容創(chuàng)作一直都需要專業(yè)的人員與技術(shù)完成,是唯一一個沒有UGC內(nèi)容平臺的信息載體,但3D內(nèi)容必然會迎來爆發(fā)的那一天,而這一步也終離不開UGC內(nèi)容平臺。從World Labs與Genie 2中不難看出,無論是李飛飛的工作團(tuán)隊(duì)還是谷歌的大模型,科技巨頭都在推動這一步的到來。
從AI中找商機(jī),XR內(nèi)容創(chuàng)作也該迎來春天了
2024年,XR內(nèi)容創(chuàng)作大體依然很苦。
據(jù)VR陀螺了解,目前能賺錢的XR內(nèi)容團(tuán)隊(duì)大致分為三種:一是,專門負(fù)責(zé)海外市場,有一定的專業(yè)度,同時海外相比國內(nèi)市場也較為理想;二是,做線下內(nèi)容,類似于體驗(yàn)店/大空間,尤其今年VR大空間爆發(fā),不少內(nèi)容團(tuán)隊(duì)開始分力專做這一塊;三是,負(fù)責(zé)一些小的項(xiàng)目,或者專門為一些大廠提供內(nèi)容搭建輔助。
但隨著AI 3D創(chuàng)作的到來,一些特別的情況已經(jīng)出現(xiàn)。
不少創(chuàng)作者開始從AI中找商機(jī),例如10月份UGC內(nèi)容平臺Roblox玩家RG使用Tripo生成的一頂3D粉色貝雷帽,在1小時內(nèi)吸引了超3000名玩家涌入Tripo。RG也靠售賣游戲配飾賺到了超過1億Robux(Roblox內(nèi)的代幣,折合約35萬美元,近250萬元人民幣)。
與此同時,在TikTok、Roblox等內(nèi)容平臺上,也已經(jīng)有創(chuàng)作者通過AI 3D內(nèi)容賺到了第一桶金。更為重要的是,很多創(chuàng)作者在社交媒體平臺上發(fā)布的3D模型視頻,完全能夠?qū)氲接螒虻漠嬅嬷惺褂谩?/p>
AI技術(shù)的成熟為創(chuàng)作者提供了全新的商業(yè)思路,除了公開平臺上AI 3D創(chuàng)作的盈利模式之外,電商領(lǐng)域?qū)?D內(nèi)容的需求也在增強(qiáng)。例如,亞馬遜推出的Virtual Try-On的3D功能,支持商家上傳自己物品的3D模型,以提高商品的吸引力。而像Vision Pro上淘寶、京東等網(wǎng)購平臺,雖然體驗(yàn)讓人驚艷,但3D內(nèi)容還是太少。為了能夠豐富3D內(nèi)容生態(tài),11月份淘寶還推出了全球首場3D空間交互直播。
不難看出,業(yè)內(nèi)已經(jīng)意識到隨著空間計算的逐步發(fā)展,行業(yè)對3D資產(chǎn)的需求已經(jīng)變得越來越高。亞馬遜官方也表示,“超過9成的消費(fèi)者認(rèn)為3D商品會影響自己的購物決策,因此電商領(lǐng)域?qū)?D生成內(nèi)容的應(yīng)用,將會成為一個可行的商業(yè)化方向”。
面向一個既定的未來,3D內(nèi)容創(chuàng)作存在著無限的想象空間。不僅新型企業(yè)可以從中分得一杯羹,一些小的XR內(nèi)容團(tuán)隊(duì)甚至個人創(chuàng)作者也終迎來另一風(fēng)起。
進(jìn)一步看,在AI技術(shù)的發(fā)展下,3D創(chuàng)作的市場也正在被緩緩打開。Meta在宣布與卡梅隆合作打造「世界級3D娛樂體驗(yàn)」后也表示,“使用虛擬和混合現(xiàn)實(shí)頭顯的人數(shù)比以往任何時候都多,為沉浸式講故事開啟了令人興奮的新可能性。通過與Lightstorm Vision的合作,我們致力于推動媒體發(fā)展,并通過使用包括AI在內(nèi)的先進(jìn)工具,提升內(nèi)容創(chuàng)作者制作高質(zhì)量立體內(nèi)容的能力。”
AI正在助力3D內(nèi)容產(chǎn)業(yè)的發(fā)展向更深的領(lǐng)域邁進(jìn)。對于內(nèi)容創(chuàng)作來說,將會迎來很大的機(jī)遇,在新行業(yè)與新技術(shù)之上騰飛。也正如馬云回歸后的首次演講所言,“20年前,互聯(lián)網(wǎng)剛剛到來的時候,我們這一代人很幸運(yùn),抓住了互聯(lián)網(wǎng)時代的機(jī)遇。從今天來看,未來20年的AI時代能帶來的改變會超出所有人的想象,因?yàn)锳I會是一個更加偉大的時代。”
寫在最后
從技術(shù)發(fā)展路徑來看,AI已經(jīng)在3D內(nèi)容生成領(lǐng)域有了重大的進(jìn)步,并且已被業(yè)內(nèi)視為是占據(jù)絕對重要性的技術(shù)。隨著AI技術(shù)不斷發(fā)展,AI 3D的成熟也將會助推應(yīng)用層面不斷出現(xiàn)新的現(xiàn)象,而AR/MR的普及也將會帶動3D內(nèi)容不斷豐富。
乘著技術(shù)的風(fēng),加碼布局的頭部企業(yè)動作也越來越頻繁,除了卡梅隆與Meta的合作之外;迪士尼也組建了全新的技術(shù)辦公室,以探索AI與混合現(xiàn)實(shí)的應(yīng)用;佳能發(fā)布了新款鏡頭,專為3D VR視頻拍攝設(shè)計,可用于Meta Quest 3等頭戴設(shè)備以及Vision Pro空間視頻的拍攝;前段時間影像技術(shù)公司Blackmagic Design還推出了專為拍攝沉浸式視頻而設(shè)計的商業(yè)攝像機(jī)URSA Cine Immersive。
毫無疑問,3D內(nèi)容生態(tài)已是明確的趨勢,一些頭部企業(yè)的布局也都指向了這點(diǎn)。隨著行業(yè)發(fā)展逐步滲透,也映射了未來內(nèi)容生態(tài)的變革和新方向。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息