文/VR陀螺 豌豆
AIGC(生成式人工智能)在全球范圍內(nèi)火了一把,據(jù)瑞銀發(fā)布的一份研究報告顯示,自ChatGPT推出兩個月后,月活躍用戶估計已達(dá)1億,成為歷史上增長最快的消費應(yīng)用。
圖源:Google Trends
創(chuàng)造了多項“神話”的AIGC,一度引發(fā)全民對“被替代”“被失業(yè)”的擔(dān)憂,以快速成長的ChatGPT為代表的大模型自然也受到了各企業(yè)的關(guān)注,百度推出“文心一言”以來,大模型遍地開花,包括華為、阿里、京東、商湯等科技公司陸續(xù)推出了各自的大模型項目。
面對日益興起的AIGC,國家互聯(lián)網(wǎng)信息辦公室就《生成式人工智能服務(wù)管理辦法(征求意見稿)》(以下簡稱《征求意見稿》)向社會公開征求意見。整體來看,《征求意見稿》更多的是為規(guī)范我國人工智能、算法等行業(yè)的發(fā)展帶來了更為細(xì)致且明確的規(guī)范指導(dǎo)。
AIGC有著能在各行各業(yè)賦能的強大功能,ChatGPT富有創(chuàng)造性的對話讓人不禁遐想,在元宇宙時代,數(shù)字人將成為非常關(guān)鍵的角色,AIGC與數(shù)字人的結(jié)合又會對現(xiàn)實世界帶來怎樣的變化?
數(shù)字人走向各行各業(yè),AI方向前景廣闊
據(jù)IDC發(fā)布的《中國AI數(shù)字人市場現(xiàn)狀與機會分析2022》報告中,預(yù)計到2026年中國AI數(shù)字人市場規(guī)模將達(dá)到102.4億元人民幣。可見AI數(shù)字人前景之廣闊。
圖源:IDC
數(shù)字人最初應(yīng)用于影視、游戲行業(yè),隨后落地到各行各業(yè),在應(yīng)對更復(fù)雜的情況時,人們對數(shù)字人的信息處理能力、即時互動能力以及表達(dá)能力等需要有更高的要求。
陀螺研究院發(fā)布《2023年全球虛擬數(shù)字人產(chǎn)業(yè)報告》,其指出虛擬數(shù)字人的每個發(fā)展階段與時代背景,技術(shù)有緊密聯(lián)系,至今已邁入成長階段,2023年Open AI推出的聊天機器人ChatGPT,與真人之間展開“靈活機智”對話,給由AI驅(qū)動的虛擬數(shù)字人描繪了極大創(chuàng)作及交互想象空間,伴隨著ChatGPT成熟應(yīng)用,虛擬數(shù)“智”人將走向大眾生活。
圖源:陀螺研究院
如今AI對傳媒、影視、藝術(shù)、電商、娛樂、游戲等領(lǐng)域已經(jīng)產(chǎn)生了重要的影響。數(shù)字人需要更智能、更人性化,有更真實的表現(xiàn)力。
AI賦能數(shù)“智”人,加速打破次元壁
如果好看的外形是數(shù)字人的“名片”,那么AI將成為數(shù)字人的“內(nèi)核”。AI賦能數(shù)字人,未來能實現(xiàn)文本生成、音頻生成、圖像生成、視頻生成、3D模型生成等功能,延伸到多模態(tài)交互功能,進(jìn)而實現(xiàn)跨維度升級。
在外形方面,AI技術(shù)幾乎滲入到數(shù)字人構(gòu)建的各個基礎(chǔ)環(huán)節(jié):建模、生成、渲染、驅(qū)動、呈現(xiàn)、交互等方面,目前已經(jīng)能呈現(xiàn)高保真的“人類”外形,也能做出流暢的肢體語言,如虛幻引擎的Metahuman和數(shù)年前三星演示的NEON數(shù)字人。
NEON數(shù)字人(圖源:網(wǎng)絡(luò))
為了提高數(shù)字人的真實度,前段時間英偉達(dá)更新了其Omniverse的AI能力,并宣稱將進(jìn)一步引入對生成式AI的支持,用戶可以僅憑文本信息自動生成高質(zhì)量的材料。這一特性在Omniverse的聲音驅(qū)動面部表情的工具Audio2Face上面也有體現(xiàn)。
高保真AI數(shù)字人(圖源:英偉達(dá))
為了演示Omniverse的新特性, Adobe Substance 3D藝術(shù)和開發(fā)團隊使用Omniverse USD Composer(前稱Create)合作創(chuàng)作了一個虛擬數(shù)字人形象。從視頻可以看到,里面的虛擬角色視效逼真,并且皮膚呈現(xiàn)了真實的光線效果,而生成式AI,則提升了面部表情以及唇形同步的質(zhì)量。相關(guān)閱讀:《AI含量極高,GTC 2023有何新動態(tài)?》
在數(shù)字人制作方面,AI的接入讓其生產(chǎn)成本進(jìn)一步降低。
3月,騰訊發(fā)布全新的AI智能創(chuàng)作助手“騰訊智影”,智影數(shù)字人能實現(xiàn)“形象克隆”和“聲音克隆”,創(chuàng)作者通過上傳少量圖片、視頻和音頻素材,就能得到自己的數(shù)字人分身和定制音色,進(jìn)而快速生成自己的數(shù)字人播報視頻。據(jù)介紹,騰訊智影還接入了數(shù)字人直播,可實現(xiàn)7×24小時不間斷開播。
來源:騰訊智影
商湯科技在4月的技術(shù)交流日活動上發(fā)布了大模型體系“商湯日日新大模型”,其演示了2D數(shù)字人視頻生成平臺“如影SenseAvatar”,據(jù)稱僅需一段5分鐘的真人視頻素材,就可以生成出來聲音及動作自然、口型準(zhǔn)確、多語種精通的數(shù)字人分身。它可應(yīng)用為智能直播、教學(xué)、短視頻等多種場景。
來源:商湯科技
在功能方面,結(jié)合ChatGPT的數(shù)字人不僅能完成更細(xì)致的指引、導(dǎo)航等信息提示服務(wù)工作,結(jié)合龐大的知識數(shù)據(jù)庫,在B端如金融、汽車、工業(yè)等場景以及C端的影視、游戲、直播等領(lǐng)域?qū)⒂懈蟮陌l(fā)展空間。
另外,OpenAI于今年3月發(fā)布了多模態(tài)預(yù)訓(xùn)練大模型GPT-4,ChatGPT的功能有了進(jìn)一步提升:擁有識圖功能;擴大文字輸入限制至2.5萬字;對話內(nèi)容準(zhǔn)確性提高;能生成有風(fēng)格變化的創(chuàng)意文本等。多模態(tài)功能將使數(shù)字人的交互、決策建議更為真實有效。
人人都能實現(xiàn)“數(shù)字永生”
ChatGPT發(fā)布后,大量AI工具順勢而生,在一些AIGC的門戶網(wǎng)站上甚至收錄了海內(nèi)外上千款A(yù)I應(yīng)用。包括搜索引擎、文本寫作、聊天機器人、語音合成、音樂制作、繪畫生成、圖像化身、圖像合成、3D生成、視頻技術(shù)、數(shù)字虛擬人、游戲應(yīng)用、無代碼創(chuàng)作等40個細(xì)分領(lǐng)域。幾乎人人都能創(chuàng)建符合自己需求的數(shù)字人。
圖源:AIGC中文工具導(dǎo)航截圖
得益于這些AI工具強大的內(nèi)容生成能力,現(xiàn)在網(wǎng)上也出現(xiàn)了不少“整活”嘗試。
前陣子AI在B站上掀起一陣華語樂壇的“賽博文藝復(fù)興”熱潮,不少UP主利用音樂大模型軟件,通過內(nèi)容編碼器提取源音頻語音特征,進(jìn)行AI翻唱制作,讓歌手“唱”起來。與B站“鬼畜區(qū)”的人力調(diào)音不同,AI翻唱的效果非常真實自然,實際一聽幾乎難以分辨出是真人還是AI的聲音,甚至還能看到視頻中有不少彈幕討論起AI唱功好不好……
圖源:B站截圖
另一方面,也有人在嘗試證明AI“技術(shù)向善”。UP主吳伍六發(fā)布了一則名為“用AI工具生成我奶奶的虛擬數(shù)字人”的視頻,他嘗試用AI+照片、音頻來生成已故奶奶的數(shù)字人,并與之進(jìn)行虛擬對話。
前兩年韓國 MBC 電視臺在出品大型 VR 紀(jì)錄片《見到你了》中,利用VR技術(shù)復(fù)活了7歲小女孩。
圖源:網(wǎng)絡(luò)
通過AI語音合成技術(shù),提取小女孩生前影像音頻。同時找來5個同齡的孩子錄制上百條音頻作為補充,最終復(fù)原成功小女孩的聲音。再結(jié)合3D建模,動作捕捉等技術(shù)抓取三維坐標(biāo)數(shù)據(jù),初步還原小女孩外形。相關(guān)閱讀:《VR 掃墓,數(shù)字永生,技術(shù)正在重新定義“生命”》
在現(xiàn)實中不可能做到的“復(fù)活”和“永生”,卻能通過技術(shù)得以實現(xiàn),這類視頻引發(fā)了網(wǎng)友們對AI、生命、侵權(quán)、感情、寄托、人性和倫理道德的思考和討論,展現(xiàn)不同人對數(shù)字生命的理解。
AI數(shù)字人在直播領(lǐng)域悄然生長
在元宇宙中數(shù)字人已經(jīng)是有著較為成熟體系的領(lǐng)域,從技術(shù)到實際落地再到商業(yè)化,如今虛擬偶像、虛擬演唱會等垂直場景大行其道,而數(shù)字人直播已不是新鮮事。
圖源:IDC
在數(shù)字人商業(yè)化的道路中,無論是主打陪伴的娛樂型數(shù)字人還是以電商帶貨為主的功能服務(wù)型數(shù)字人,AI數(shù)字人在直播中的應(yīng)用率正逐漸提高,然而現(xiàn)階段的數(shù)字人直播,絕大多數(shù)情況下,包括外形設(shè)計、配音、互動等都仍需要人類進(jìn)行干預(yù),AI只能實現(xiàn)一些簡單的交互。
在海外已有基于ChatGPT+VRM(3D模型)+VOICEVOX(文本轉(zhuǎn)語音軟件)創(chuàng)建聊天型人工智能的案例。例如OshaberiAI,這是一款允許用戶創(chuàng)建養(yǎng)成型角色并與之聊天的應(yīng)用程序,通過設(shè)計對ChatGPT的提示(指令),為數(shù)字人設(shè)定各種個性和語氣,與用戶進(jìn)行簡單的聊天交互。
圖源:推特
目前該應(yīng)用已上線AppStore,此前該開發(fā)者也在AR+數(shù)字人導(dǎo)航方面做了一些嘗試,推出了“ARCharaNavi”,用戶在應(yīng)用中設(shè)定好目的地之后,數(shù)字人會根據(jù)選擇好的路線在屏幕中的路線前方帶領(lǐng)用戶前行。
而AI數(shù)字人的強大勝在可控性高,模式可復(fù)制,能7×24小時保持在線,在直播領(lǐng)域成了不少電商品牌的“新歡”。
中國互聯(lián)網(wǎng)絡(luò)信息中心日前發(fā)布的第51次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2022年12月,中國網(wǎng)民規(guī)模達(dá)10.67億,短視頻用戶規(guī)模達(dá)10.12億,短視頻用戶滲透率高達(dá)94.8%,而網(wǎng)絡(luò)直播用戶規(guī)模達(dá)7.51億。
有了龐大的直播受眾,投身于電商直播的AI數(shù)字人表現(xiàn)如何?成本低是品牌方選用數(shù)字人進(jìn)行直播的一大因素,某品牌直播間售價和數(shù)字人服務(wù)定價,粗略計算后日均花費大約在600元左右,相比于聘請真人主播,能大幅減少支出成本。
目前在電商直播領(lǐng)域,AI數(shù)字人通常在夜間至凌晨直播,彌補真人主播休息期間的空缺,盡可能獲取更多閑時流量?,F(xiàn)階段用戶可以通過關(guān)鍵詞觸發(fā)與數(shù)字人關(guān)于商品的交互,要讓AI數(shù)字人執(zhí)行更細(xì)致的指令和互動還有一定難度。
圖源:抖音網(wǎng)頁版截圖
而在短視頻平臺,已有不少AI數(shù)字人嘗新開設(shè)全天無休的直播間,實際上這類重復(fù)相似對話內(nèi)容的直播間熱度并不高,如果有明星IP加入,則會帶來更顯著的引流效果。例如樂華七子的黃新淳,基于他本人的形象設(shè)計了數(shù)字人分身,結(jié)合AI算法來控制數(shù)字人的動作和表情,還能正常與粉絲進(jìn)行互動。
AI數(shù)字人在視覺效果和語音上越發(fā)真實,也就意味著人們將更加難以辨別真人與“數(shù)字人”,且絕大部分人是第一次接觸AIGC內(nèi)容,為了避免更多的AI內(nèi)容對觀眾造成誤解,不少視頻平臺發(fā)布了相關(guān)平臺規(guī)范。
抖音APP官方公眾號于近期發(fā)布《抖音關(guān)于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議》一文,指出“各生成式人工智能技術(shù)的提供者,均應(yīng)對生成內(nèi)容進(jìn)行顯著標(biāo)識,以便公眾判斷。同時使用統(tǒng)一的人工智能生成內(nèi)容數(shù)據(jù)標(biāo)準(zhǔn)或元數(shù)據(jù)標(biāo)準(zhǔn),便于其他內(nèi)容平臺進(jìn)行識別。”
圖源:抖音APP官方公眾號
就連海外知名插畫平臺Fanbox的運營商PixivFANBOX,也宣布禁止上傳和銷售使用Midjourney 、Stable Diffusion等AI藝術(shù)工具生成的插圖,將對發(fā)布由AI創(chuàng)作作品的賬號采取措施,如發(fā)出警告、限制可見范圍、封禁賬號等。未來將會有更多平臺自發(fā)加入規(guī)范AIGC內(nèi)容的陣營中。
AI數(shù)字人在直播領(lǐng)域,尤其是電商板塊的落地進(jìn)程加快,其變現(xiàn)能力強、操作門檻低(不少平臺推出無代碼方案)、降本增效顯著等優(yōu)勢迎合了品牌方對數(shù)字化電商直播的需求。同時,部分頭部電商直播MCN也能憑借自身在IP運營管理、平臺流量資源、品牌方資源的積累,嘗試從真人直播轉(zhuǎn)向數(shù)字人直播,提高閑時階段的收益。現(xiàn)階段的AI數(shù)字人仍有非常大的發(fā)展空間。
結(jié)語
在元宇宙盛行的時期,數(shù)字人還只是人們眼中的“流量明星”,背后又牽扯到高成本的動捕和中之人運營,普通人幾乎難以企及。雖然現(xiàn)階段的AI數(shù)字人仍然未達(dá)到能跟真人“搶飯碗”的能力,但成長迅速的AI正在加速數(shù)字人走向大眾的進(jìn)程,而ChatGPT則是AI數(shù)字人最佳的接入口之一,為數(shù)字人的人機交互功能帶來更多落地應(yīng)用機會。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息