文/VR陀螺 豌豆
2023年畫上句點,回顧這一年,AIGC工具繼續(xù)保持爆發(fā)式增長的態(tài)勢,數(shù)字人依舊堅守在各自的崗位,而點燃AI熱度的OpenAI將曾經(jīng)大眾認(rèn)為“只可遠(yuǎn)觀不可褻玩”的AI一步帶到普通用戶面前。
2023年底,AI企業(yè)更是掏出了年度“殺手锏”,11月舉辦的OpenAI首屆開發(fā)者大會官宣多模態(tài)技術(shù)能力大幅提升,不僅是GPT-4V,短時間內(nèi)其他多模態(tài)AI大模型陸續(xù)取得新的突破:Pika Labs的AI視頻生成工具Pika 1.0,以及谷歌Gemini都向人們展示了多模態(tài)大模型的想象力和潛力,似乎能進(jìn)一步升級數(shù)字人的“大腦”功能……
潮起潮落,借著AI的東風(fēng)如今數(shù)字人賽道又小火了一把,更多數(shù)字人以新面貌出現(xiàn),逐步向智能化邁進(jìn)。在AI的賦能下,數(shù)字人甚至可以演戲、進(jìn)行實時互動直播、吟詩作對、寫詞作曲,例如異人之下數(shù)字人演員厘里、少年李白數(shù)字人、AI創(chuàng)作型歌手Anna Indiana、AI VTuber(Neuro-sama)、AI孫燕姿等等。
圖源:網(wǎng)絡(luò)
有了AI支持的數(shù)字人已成功造勢,但行業(yè)生態(tài)算不上健康,玩著流量游戲、把握信息差密碼在風(fēng)口上割韭菜的大有人在,假設(shè)讓數(shù)字人獲得高階AI能力,能否就此獲得全方位升級,從根本上改善數(shù)字人場景應(yīng)用難扎根的問題?AI已經(jīng)是大趨勢,數(shù)字人的未來如何落到實處?
通過塑造IP打造品牌影響力是數(shù)字人占領(lǐng)市場高地的主要戰(zhàn)略。
2023年12月,國內(nèi)數(shù)字人IP庫“元力趨勢網(wǎng)”上線,據(jù)悉該平臺目前已有超過300個數(shù)字IP入駐,包括頭部IP星瞳、洛天依、蘇小妹、厘里、柳夜熙、夏語冰、央視網(wǎng)小C等。
圖源:元力趨勢網(wǎng)
國內(nèi)數(shù)字人的數(shù)量和外形質(zhì)量都有了大幅度提升,也吸引不少傳統(tǒng)企業(yè)嘗試在該領(lǐng)域?qū)崿F(xiàn)數(shù)字化升級。數(shù)字人的可就業(yè)場景豐富,無論是在電商直播間勤懇的打工數(shù)字人,還是文旅娛樂的數(shù)字代言人,又或是企業(yè)宣傳對外的嶄新形象,數(shù)字人似乎在To B領(lǐng)域更加吃香。
在金融領(lǐng)域,中國銀行業(yè)協(xié)會在第七屆中國數(shù)字銀行論壇發(fā)布《遠(yuǎn)程銀行虛擬數(shù)字人應(yīng)用報告》,報告指出,2023年已有11家客服中心與遠(yuǎn)程銀行實現(xiàn)了虛擬數(shù)字人應(yīng)用落地,5家銀行正在籌建中。銀行虛擬數(shù)字人已廣泛應(yīng)用于對客服務(wù)、風(fēng)險控制、新媒體運營、內(nèi)部賦能等領(lǐng)域。
圖源:央視網(wǎng)
在文旅文博方面,有《關(guān)于推進(jìn)實施國家文化數(shù)字化戰(zhàn)略的意見》的政策性支持,在發(fā)展數(shù)字化文化消費的大方向下,中國國家博物館的“艾雯雯”、中國文物交流中心的“文夭夭”、數(shù)字敦煌文化大使“伽瑤”和少年李白數(shù)字人等。數(shù)字人正以一種新的面貌向人們講解歷史、演繹經(jīng)典。
緊盯流量的背后是焦慮情緒的體現(xiàn),而互聯(lián)網(wǎng)流量經(jīng)濟進(jìn)入存量時代,平臺競爭加劇,紅利增長受限,以資金換流量的營銷方式難度加大。2023年對數(shù)字人行業(yè)來說,是充滿挑戰(zhàn)的一年。
就連當(dāng)年的現(xiàn)象級數(shù)字人柳夜熙,也似乎從美妝博主轉(zhuǎn)型走上了內(nèi)容路線,熒幕前的柳夜熙淡化其美妝屬性,通過拍攝短劇強化自身IP。除了柳夜熙以外,早一批吃到紅利的數(shù)字人們?nèi)栽诶^續(xù)營業(yè),例如AYAYI、星瞳、希加加等。圖新鮮的熱度一旦過去,這些數(shù)字人后續(xù)的流量起伏變得更加不穩(wěn)定。
以直播為例,曾經(jīng)一度火爆的電商直播數(shù)字人,如今熱度也有所下降,目前仍有品牌方繼續(xù)采用智能主播/AI主播來為直播間撐場。陀螺君注意到,某寶上更多的智能主播已經(jīng)在向高仿真的外形靠近。
圖源:淘寶直播間
比起之前幾乎一邊倒的3D卡通數(shù)字人,現(xiàn)在電商直播間更多的是近似真人的數(shù)字人主播,一進(jìn)直播間若不是注意到右側(cè)標(biāo)記為“虛擬主播”等字樣,下意識會以為是真人主播,但她們依然無法完成更高難度的互動:這些數(shù)字人主播由AI生成,有更自然的語調(diào)但口型不能實時同步,肢體動作不多,大多數(shù)情況下是主播單方面解說產(chǎn)品,互動較少,整體流量不高。
直播是數(shù)字人應(yīng)用最廣的舞臺之一,而不同直播平臺對數(shù)字人主播也有不同的態(tài)度,大部分電商平臺持歡迎態(tài)度,支持商家采用可24小時直播的數(shù)字人將“人貨場”重新鏈接。另外知識分享類視頻中使用數(shù)字人的情況也逐漸變多。
在短視頻平臺則有所限制,例如抖音此前發(fā)布的《抖音關(guān)于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議》指出,數(shù)字人直播時必須由真人驅(qū)動進(jìn)行實時互動,不允許完全由AI驅(qū)動進(jìn)行互動。AI數(shù)字人主播在抖音的活躍度有所下降。
數(shù)字人營銷同樣看重結(jié)果、數(shù)據(jù)和流量。但支撐數(shù)字人“內(nèi)外兼修”的成本頗高,建模、AI、動捕、渲染等,樣樣都是“支出大頭”。隨著前期制作、后期運營成本增加等因素影響,不少企業(yè)會選擇低成本的“通用型”數(shù)字人方案。最終到用戶面前,在不同平臺看到的是大同小異的量產(chǎn)型數(shù)字人,操著一口難以親近的“機械音”,用戶自然不買賬。
2023年VTuber的直播收入榜單(圖源:Playboard)
另外,海外的數(shù)字人直播同樣值得關(guān)注,其集中在VTuber這一領(lǐng)域,且主要依賴真人(中之人)驅(qū)動。綜合來看VTuber播放數(shù)、粉絲數(shù)和營收情況,企業(yè)勢事務(wù)所幾乎由hololive和彩虹社(包括日語系和英語系VTuber)各分天下,除了直播還能通過聯(lián)名代言、發(fā)布專輯、參加商演、舉辦活動等方式獲得收入。據(jù)主播動態(tài)數(shù)據(jù)網(wǎng)站Streams Charts的文章顯示,VTuber是直播行業(yè)中增長最快的群體之一:
“2022年期間,所有相關(guān)平臺的VTuber直播觀看時長達(dá)到9.79億小時。2023年,直播觀看人數(shù)大幅增長,總觀看時長超過11億小時,較去年增長14.2%。盡管2023年活躍的直播頻道比上一年減少了9% ,但VTuber越來越受歡迎。相比實力強大的企業(yè)勢VTuber,個人勢VTuber通常不是最受歡迎的,但在所有VTuber直播頻道中有73.9%是獨立運營的。”
2023年VTuber分布統(tǒng)計(圖源:Streams Charts)
如今數(shù)字人產(chǎn)業(yè)進(jìn)入專注于技術(shù)沉淀的發(fā)展階段。和2022年相比,疫情帶來的影響逐漸淡去,人們的工作生活、娛樂活動重回線下,相應(yīng)的對部分線上娛樂活動需求下降,以數(shù)字人為主導(dǎo)的虛擬演出等會受到一定影響,盡管IP的影響力不會因此減少,但考慮到運維成本,不少企業(yè)的數(shù)字人To C業(yè)務(wù)范圍會有所調(diào)整,減緩在該領(lǐng)域的布局進(jìn)程。相關(guān)閱讀:《【年度專題】一年增長近20萬家相關(guān)企業(yè),數(shù)字人從量變到“應(yīng)”變》
全球虛擬數(shù)字人產(chǎn)業(yè)圖譜 2024版(圖源:陀螺研究院)
數(shù)字人正因為被賦予了人形的數(shù)字軀體,人們才對他們有了更多在身份、情感、倫理,甚至是數(shù)字生命問題的探討,盡管其存在本身并不屬于現(xiàn)實世界,但所需要的底層技術(shù)又與現(xiàn)實世界緊密相連。
數(shù)字人并不是我們認(rèn)知中的“紙片人”,通俗來講,數(shù)字人是會動的(包括面部表情變化、軀體運動等),就算是2D形象的數(shù)字人也可通過Live2D技術(shù)為其注入生命力。細(xì)節(jié)見真章,3D建模、動捕等技術(shù)的快速發(fā)展令數(shù)字人的高保真程度更上一層樓。
在數(shù)字人的“創(chuàng)建”這一環(huán),要塑造具象而立體的人物形象,大多數(shù)要經(jīng)過建模這一步驟,掃描建模、照片建模、編輯、渲染等多道生成工序而成。
火山語音數(shù)字員工小燦(圖源:火山語音)
前文提到的Live2D被認(rèn)為是介于2D與3D之間的技術(shù),也使用了大量的3D渲染算法,這項技術(shù)已頗為成熟,在插畫、動漫、游戲、VTuber虛擬主播等領(lǐng)域均有廣泛應(yīng)用。Live2D Cubism Editor升級后的5.0版本添加了AI輔助功能,可實現(xiàn)半自動生成面部動作,還支持根據(jù)音頻實時生成同步的口形動作,讓2D形象的數(shù)字人得到了活力。
圖源:Live2D
3D數(shù)字人在外形上的打磨更需費時費力。一是可使用傳統(tǒng)軟件手動建模,利用Maya、C4D、Blender等,但對專業(yè)知識和經(jīng)驗有著非常高的要求。二是可通過非接觸式掃描設(shè)備進(jìn)行掃描并創(chuàng)建貼近真人形象的3D模型。
圖源:《Metahuman》
三是可利用相機陣列進(jìn)行掃描建模,例如優(yōu)鏈時代的云陣相機方案,通過架設(shè)近百臺相機,對場地中間的人進(jìn)行全方位拍攝,最終合成3D人體模型。四是可利用市面上已有的數(shù)字人編輯器平臺完成創(chuàng)作,例如來畫科技、相芯科技等企業(yè)的數(shù)字人生成平臺,在給定的基礎(chǔ)3D模型上調(diào)整,目前大多數(shù)數(shù)字人生成平臺都有接入AI功能。
圖源:陀螺研究院
多數(shù)情況下,靜態(tài)的攝影測量方法在人臉建模方面的處理不夠細(xì)致,看上去人臉像是平面一般,且五官細(xì)節(jié)不夠突出,拍照時的光線等因素都會影響建模質(zhì)量,相比之下,具備高視覺保真的多維動態(tài)光場重建技術(shù)有望成為未來趨勢。
多維動態(tài)光場建模技術(shù)優(yōu)勢是可以忽略材質(zhì),直接掃描三維世界的光線,在重建人物模型時,還可以一次獲得人物的動態(tài)數(shù)據(jù),以及不同視角下呈現(xiàn)不同光影效果的高質(zhì)量3D人物模型,但因多維動態(tài)光場建模技術(shù)成本較高、難以運輸、組裝難度高且尚未出現(xiàn)商業(yè)化的通用解決方案等原因,尚未在國內(nèi)得到普及。從技術(shù)發(fā)展路徑上看會是未來的重點發(fā)展方向。相關(guān)閱讀:《陀螺研究院發(fā)布<2023全球虛擬數(shù)字人產(chǎn)業(yè)圖譜>》
要讓數(shù)字人動起來,一是通過真人動作捕捉將運動數(shù)據(jù)傳輸?shù)綌?shù)字人身上,主要應(yīng)用于對實時互動有要求的影視、游戲、直播領(lǐng)域。二是通過算法驅(qū)動,事先采集真人運動、語音等數(shù)據(jù),基于深度學(xué)習(xí)技術(shù)訓(xùn)練人物模型,形成一套新的驅(qū)動模型與驅(qū)動方式。
兩者最大的差別是,前者交互自然,對真人(中之人)的身體素質(zhì)有一定要求,而后者不需要真人持續(xù)在線,但交互略顯僵硬需要在訓(xùn)練過程中反復(fù)調(diào)整。
圖源:《Rec Room》
早期由于技術(shù)的限制,為了遵循虛擬形象設(shè)計在VR中的可行性,多數(shù)VR社交游戲的虛擬形象無法得到全身追蹤支持,而目前已有包括《Rec Room》《VRChat》在內(nèi)的VR游戲,從官方層面為玩家提供個性化展示的機會,《Horizon Worlds》也已宣布支持虛擬化身腿部顯示。相關(guān)閱讀:《讓虛擬化身的“肢體語言”更真實?全身動捕的IK優(yōu)化是關(guān)鍵》
目前動捕技術(shù)已足夠成熟,然而不同的場景對動捕的精度要求不一,專業(yè)的動捕演員需要身著特定的動捕服,在特定的場地里完成動作捕捉。
圖源:Quitasueño Studio
使用專業(yè)設(shè)備的成本非常高,據(jù)悉市面上的一些專業(yè)動捕品牌例如OptiTrack、Vicon和Xsens等解決方案大多在幾千美元到幾萬美元不等。一套專業(yè)的動捕方案包含設(shè)備本身(傳感器、服裝、基站、電腦等),以及定制的軟件,再加上維護成本,對普通人來說難以承受。國內(nèi)也有不少可提供專業(yè)動捕解決方案的企業(yè),例如諾亦騰、度量科技、聚力維度、青瞳視覺等。
一些面向消費端的便攜式動捕方案(圖源:VR陀螺整理)
高性價比的便攜式動捕方案越來越多,slimeVR、Tundra Tracker、AprilTag、Amethyst、HaritoraX、Rebocap等等,為想在《VRChat》體驗全身動捕的玩家以及有直播動捕需求的用戶提供便利,無論預(yù)算限制、動捕效果需求如何,用戶都能選到適合自己的產(chǎn)品。
其中VIVE自定位追蹤器和索尼的mocopi均在2024年面向國內(nèi)發(fā)售,VR陀螺也曾評測過mocopi的產(chǎn)品。相關(guān)閱讀:《評測丨一鍵成為虛擬偶像?索尼mocopi會是新的動捕黑科技嗎?》
陀螺君還注意到,從玩家社區(qū)的開源動捕方案到HTC、索尼這些大廠提供的動捕方案,最后的落腳點都會集中在《VRChat》這一游戲場景上。SteamDB的數(shù)據(jù)顯示《VRChat》的日活玩家(24小時高峰)大概有2.5萬人,而MMO STARS預(yù)估《VRChat》的總玩家數(shù)量可能有820萬人左右。
隨著玩家的虛擬角色的可動性和靈活性上升,《VRChat》還與不少企業(yè)和團隊展開合作推出了各種活動,包括,虛擬展會、虛擬服裝、虛擬演出、品牌方的官方虛擬商店等等,由HIKKY舉辦的“Virtual Market 2023”夏季展會,總參觀人數(shù)超過120萬人次。《VRChat》的背后,或許還有更多數(shù)字人與虛擬空間、虛擬資產(chǎn)相關(guān)的商業(yè)潛力有待發(fā)掘。
如今AI的能力越發(fā)強大,提供“一站式”功能,包攬數(shù)字人的創(chuàng)建到驅(qū)動,甚至是內(nèi)容生成板塊。但在這個領(lǐng)域,其實也能看到不少有趣的應(yīng)用場景。相關(guān)閱讀:《AIGC重塑數(shù)字人:落地、變革、永生》
AI創(chuàng)作型歌手Anna Indiana于2023年底出現(xiàn),最早發(fā)布的視頻中,其生成的歌詞講述Anna坐在咖啡館里,想到小鎮(zhèn)上充滿了破碎的夢想和絕望的尖叫,表示想拆掉這座小鎮(zhèn)。歌詞傳達(dá)了她對小鎮(zhèn)的失望和痛苦。不料歌沒有引起網(wǎng)友的共鳴,而是飽受批評。而她展示的內(nèi)容包括Key、節(jié)奏、和弦、旋律、歌詞,以及形象和歌聲全由AI生成,依舊令人感到新奇。
另外,Twitch和YouTube平臺相加擁有近70萬粉絲的AI VTuber“Neuro-sama”展示了她的快速反應(yīng)和學(xué)習(xí)能力和超強的模仿能力。
“Neuro-sama”關(guān)于電車難題的回答(圖源:b站@單推的DD烤肉)
Wiki頁面介紹道:Neuro-sama由程序員暨人工智能開發(fā)人員Jack Vedal(在直播間會以烏龜?shù)男蜗蟪霈F(xiàn))創(chuàng)造,他通過結(jié)合AI玩游戲和計算機生成的虛擬人物之間的交互來構(gòu)建AI Vtuber。Neuro-sama能夠即時與觀眾交流,該系統(tǒng)使用一個大語言模型(LLM),其對話內(nèi)容由AI生成。
Neuro-sama能夠模仿人類的語調(diào)和對話內(nèi)容,盡管還存在不少缺陷,Neuro-sama也會作出負(fù)面回答,但開發(fā)者將其區(qū)分為另一個“evil”人格,合理化了AI的負(fù)面應(yīng)答。但若是作為聊天助手,她一改常見的冷靜理性的AI語調(diào),證明了一個經(jīng)過多次調(diào)試,親切“擬人”的AI也能夠給人們帶來切實情感共鳴。
生成式AI的流行已經(jīng)帶火了AI數(shù)字人,其以迅雷不及掩耳之勢,襲卷業(yè)務(wù)助手、直播帶貨、教育培訓(xùn)、虛擬陪伴等各個領(lǐng)域。另外也能滿足商業(yè)用途,通過AI一鍵生成內(nèi)容,實現(xiàn)企業(yè)業(yè)務(wù)上的降本增效。相關(guān)閱讀:《30天攬金5千萬,AI數(shù)字人能否成為普通人的「財富密碼」?》
此前小紅書博主“johnhuu 教英語”發(fā)布的一條視頻引起海內(nèi)外的社交媒體紛紛刷屏轉(zhuǎn)發(fā)。視頻中將泰勒·斯威夫特、特朗普、艾瑪·沃特森和“憨豆先生”的演員羅溫·艾金森的原聲視頻通過AI技術(shù)翻譯內(nèi)容并轉(zhuǎn)化成與本人聲音相似的普通話,并同步修改口型生成新的視頻。
AI大模型在各行各業(yè)得以應(yīng)用,如今更是將戰(zhàn)場延伸到了教育領(lǐng)域中的口語學(xué)習(xí)板塊。這些AI數(shù)字人形象各異,全天候在線,打開聊天窗口就能開始交流?;趯υ捠紸I和LLM大語言模型的能力再結(jié)合語音識別和生動的虛擬圖像不僅能提供口語表達(dá)反饋,糾正語法錯誤,不同類型的AI數(shù)字人還能在不同領(lǐng)域帶來有趣的討論。
圖源:VR陀螺
AI數(shù)字人視頻生成工具將生活記錄、課堂記錄、演講片段等視頻轉(zhuǎn)化成各種語言的版本,實現(xiàn)無語言障礙的流暢觀看,已經(jīng)能夠滿足人們在日常生活中的使用。相關(guān)閱讀:《以假亂真?AI數(shù)字人+外語學(xué)習(xí)功能讓用戶“相見恨晚”》
大語言模型是AI的一塊重要拼圖,AI生文之后,這條賽道又迅速邁向新的一站:AI文生圖、AI文生視頻等等……目前這些AI應(yīng)用的場景難以大范圍落地,難點在于AI對算力的高要求、多技術(shù)整合,以及對訓(xùn)練數(shù)據(jù)的把控,但核心還是會回到成本問題,現(xiàn)階段AI數(shù)字人仍集中在某個單一垂直領(lǐng)域的應(yīng)用,若能進(jìn)一步優(yōu)化成本,相信未來通過與數(shù)字人對話交流,由AI賦能它們生成文字、圖片、視頻也不無可能,交互能力將得到重塑。
2024年,數(shù)字人相關(guān)行業(yè)是否能再見曙光?
麥肯錫表示,像OpenAI的ChatGPT這樣的深度學(xué)習(xí)算法在經(jīng)過企業(yè)數(shù)據(jù)的進(jìn)一步訓(xùn)練后,每年可在63個業(yè)務(wù)用例中創(chuàng)造相當(dāng)于2.6萬億至4.4萬億美元的價值。AI技術(shù)的快速迭代意味著市場競爭之激烈,似乎催促著各行各業(yè)的數(shù)字人盡快靠上AI。
將不可見的AI與可見的數(shù)字人相結(jié)合,有望逐步打通產(chǎn)業(yè)鏈的“任督二脈”,但其應(yīng)用最終都會回歸數(shù)字人與人類的交流,也離不開最底層的技術(shù)支撐,AI令單一的數(shù)字人有了“千人千面”的特性,形象、交互能力、行為動作都在向人類靠近。
圖源:英偉達(dá)
英偉達(dá)率先發(fā)力,于CES 2024上正式推出NVIDIA ACE(Avatar Cloud Engine)微服務(wù)技術(shù),可讓游戲、工具和中間件開發(fā)者將先進(jìn)的生成式AI模型,加入到游戲和應(yīng)用的虛擬數(shù)字人物里。據(jù)悉,現(xiàn)已開始采用ACE的開發(fā)商有Convai,Charisma.AI,Inworld,米哈游,網(wǎng)易游戲,掌趣科技,騰訊游戲,育碧和UneeQ。相關(guān)閱讀:《英特爾、迪士尼都關(guān)注的Inworld AI,正為虛擬NPC帶來生命力》
當(dāng)下數(shù)字經(jīng)濟高速發(fā)展,AI技術(shù)進(jìn)一步助推企業(yè)數(shù)字化轉(zhuǎn)型,而擁有AIGC能力的數(shù)字人正朝著多模態(tài)的方向前進(jìn),其強大的學(xué)習(xí)能力、連接龐大的知識庫以及高效的信息提煉能力,將改變?nèi)藱C交互模式。數(shù)字人相關(guān)技術(shù)穩(wěn)步發(fā)展,待成本問題以及應(yīng)用落地問題得到解決,AI數(shù)字人將迎來爆發(fā)期。而在爆發(fā)前夜,企業(yè)唯有把握先機,方能占據(jù)優(yōu)勢。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息