推廣

最新資訊

Meta研究人員僅用四張自拍照就能生成逼真的虛擬化身

發(fā)布時間：2025-03-04 10:02 | 標(biāo)簽：虛擬化身 Meta Avat3r

微信掃一掃：分享

微信里點“發(fā)現(xiàn)”，掃一下
二維碼便可將本文分享至朋友圈

編譯/VR陀螺

Meta 的研究人員構(gòu)建了一個“大型重建模型（LRM）”，該模型僅需四張自拍照，就能在幾分鐘內(nèi)生成一個可動的、逼真的頭部虛擬化身。

Meta 研究虛擬化身的生成和動畫技術(shù)至今已有六年多時間了，到目前為止，對于虛擬化身而言，最大的挑戰(zhàn)之一就是生成它們所需的數(shù)據(jù)量和時間。

Meta 質(zhì)量最高的系統(tǒng)需要使用一套非常昂貴的專業(yè)捕捉設(shè)備，該設(shè)備配備了 100 多個攝像頭。該公司曾展示過利用智能手機掃描來生成質(zhì)量較低的虛擬化身的研究成果，但這需要在三分多鐘的時間里做出 65 種面部表情，而且所捕捉到的數(shù)據(jù)，在一臺配備四個高端圖形處理器（GPU）的機器上需要花幾個小時才能處理完成。

如今，在一篇名為《Avat3r：用于高保真 3D 頭部化身的大型可動畫高斯重建模型》的新論文中，來自 Meta 和慕尼黑工業(yè)大學(xué)的研究人員展示了一個系統(tǒng)，該系統(tǒng)僅需四張手機自拍照，就能生成一個可動的、逼真的虛擬化身頭部，而且處理時間只需幾分鐘，而不是數(shù)小時。

從技術(shù)層面來看，Avat3r系統(tǒng)建立在大型重建模型（LRM）的概念基礎(chǔ)之上，就像大語言模型（LLMs）處理自然語言那樣，它利用了一種變換器來處理三維視覺任務(wù)，這通常被稱為視覺變換器（ViT）。這種視覺變換器被用于預(yù)測一組三維高斯模型，類似于高斯濺射技術(shù)，該技術(shù)應(yīng)用于一些逼真場景中。

盡管 Avat3r 系統(tǒng)生成虛擬化身所需的數(shù)據(jù)量和計算量非常低，但它遠(yuǎn)不適合用于實時渲染。據(jù)研究人員稱，最終的系統(tǒng)在英偉達(dá) RTX 3090 顯卡上的運行幀率僅為每秒 8 幀。

不過，在人工智能領(lǐng)域，新想法的后續(xù)迭代實現(xiàn)數(shù)量級的優(yōu)化是很常見的，Avat3r 系統(tǒng)的方法為未來指明了一條充滿希望的道路：終有一天，頭戴設(shè)備的用戶或許只需拍幾張自拍照，再經(jīng)過幾分鐘的生成時間，就能創(chuàng)建出一個逼真的虛擬化身。

來源：uploadvr

投稿/爆料：tougao@youxituoluo.com

稿件/商務(wù)合作：六六（微信 13138755620）

加入行業(yè)交流群：六六（微信 13138755620）