編譯/VR陀螺
微軟發(fā)布VASA-1,官網(wǎng)介紹道:只需使用單張人物肖像照片+一段語音音頻,即可實時生成高仿真的數(shù)字人講話視頻,唇部動作、面部動作和頭部運動都與音頻內(nèi)容同步,其表現(xiàn)高度自然協(xié)調(diào)。
微軟表示,這是一個新的框架,可以在給定單張靜態(tài)圖像和語音音頻的情況下,生成具有吸引人的視覺情感技能(VAS)的逼真的虛擬數(shù)字人說話視頻。
從微軟的演示來看,不僅提供具有逼真的面部和頭部動態(tài)的高質(zhì)量視頻,而且還支持高達40 FPS的在線生成512x512尺寸視頻,并且啟動延遲(前期延遲僅為170ms)可以忽略不計。這項技術(shù)為與模仿人類對話行為的逼真數(shù)字人進行實時互動提供支持。
在示例中可以看到更多基于1分鐘語音音頻生成的視頻,以及輸入不同音頻生成的10~15秒的視頻,既可以讓蒙娜麗莎唱Rap,又能讓素描人像念華強臺詞,數(shù)字人的外觀并不局限于性別、年齡、口音以及種族。
所有微軟展示的VASA-1的肖像圖像都是由StyleGAN2或DALL·E-3生成的虛擬的、不存在的身份(蒙娜麗莎除外)。
VASA-1能夠做到實時渲染,對比目前市面上的同類產(chǎn),VASA-1效果最好。考慮到相關(guān)技術(shù)的風(fēng)險性,目前該模型只是作為研究預(yù)覽展示,研究重點是為數(shù)字人生成提供視覺情感的積極應(yīng)用,僅供微軟研究團隊的人員使用,并不對外開放,也沒有產(chǎn)品以及API發(fā)布計劃。
來源:微軟
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息