編譯/VR陀螺
Meta 的研究人員構(gòu)建了一個“大型重建模型(LRM)”,該模型僅需四張自拍照,就能在幾分鐘內(nèi)生成一個可動的、逼真的頭部虛擬化身。
Meta 研究虛擬化身的生成和動畫技術(shù)至今已有六年多時間了,到目前為止,對于虛擬化身而言,最大的挑戰(zhàn)之一就是生成它們所需的數(shù)據(jù)量和時間。
Meta 質(zhì)量最高的系統(tǒng)需要使用一套非常昂貴的專業(yè)捕捉設(shè)備,該設(shè)備配備了 100 多個攝像頭。該公司曾展示過利用智能手機掃描來生成質(zhì)量較低的虛擬化身的研究成果,但這需要在三分多鐘的時間里做出 65 種面部表情,而且所捕捉到的數(shù)據(jù),在一臺配備四個高端圖形處理器(GPU)的機器上需要花幾個小時才能處理完成。
如今,在一篇名為《Avat3r:用于高保真 3D 頭部化身的大型可動畫高斯重建模型》的新論文中,來自 Meta 和慕尼黑工業(yè)大學(xué)的研究人員展示了一個系統(tǒng),該系統(tǒng)僅需四張手機自拍照,就能生成一個可動的、逼真的虛擬化身頭部,而且處理時間只需幾分鐘,而不是數(shù)小時。
從技術(shù)層面來看,Avat3r系統(tǒng)建立在大型重建模型(LRM)的概念基礎(chǔ)之上,就像大語言模型(LLMs)處理自然語言那樣,它利用了一種變換器來處理三維視覺任務(wù),這通常被稱為視覺變換器(ViT)。這種視覺變換器被用于預(yù)測一組三維高斯模型,類似于高斯濺射技術(shù),該技術(shù)應(yīng)用于一些逼真場景中。
盡管 Avat3r 系統(tǒng)生成虛擬化身所需的數(shù)據(jù)量和計算量非常低,但它遠(yuǎn)不適合用于實時渲染。據(jù)研究人員稱,最終的系統(tǒng)在英偉達(dá) RTX 3090 顯卡上的運行幀率僅為每秒 8 幀。
不過,在人工智能領(lǐng)域,新想法的后續(xù)迭代實現(xiàn)數(shù)量級的優(yōu)化是很常見的,Avat3r 系統(tǒng)的方法為未來指明了一條充滿希望的道路:終有一天,頭戴設(shè)備的用戶或許只需拍幾張自拍照,再經(jīng)過幾分鐘的生成時間,就能創(chuàng)建出一個逼真的虛擬化身。
來源:uploadvr
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息