在互聯(lián)網(wǎng)時代,大家以一串ID存在于網(wǎng)絡(luò)上,在XR時代,你將以何種形式活躍在元宇宙中?
6月23日,Rokid開展軟件產(chǎn)品演示分享會,從XR交互引擎、XR系統(tǒng)框架、XR創(chuàng)新應(yīng)用、AI算法應(yīng)等層面,相繼演示了數(shù)字人、手勢交互、YodaOS國際化、全息空間2.0、Open XR、MSpace、Light(WebXR)、AR導(dǎo)航、6DoF空間聲場技術(shù)、全新端到端ASR算法等最新成果。
圖源:Rokid
前沿技術(shù)成果接連上演,現(xiàn)場掌聲雷動,Rokid技術(shù)人er們也為XR時代的交互方式畫下了新的藍圖。
發(fā)布3D數(shù)字人技術(shù)
讓用戶“捏”個活靈活現(xiàn)的自己
在元宇宙中,如何定制一個獨一無二的形象?本次軟件產(chǎn)品演示分享會帶來了Rokid數(shù)字人最新技術(shù)成果——豐富可擴展的3D數(shù)字人模型和數(shù)字人引擎。
通過不同設(shè)計的眉毛、眼睛、鼻子、嘴巴、臉型以及裝扮,Rokid 3D數(shù)字人模型支持用戶通過“捏臉”和換妝的方式,定制專屬自己的形象。
目前,Rokid數(shù)字人模型已基本滿足亞洲用戶群體,未來的數(shù)字人模型將以更多五官分類組合、膚色、發(fā)型、發(fā)色以及不同地域風(fēng)格的服裝等,讓不同國家和地區(qū)的用戶都可以擁有專屬數(shù)字形象。
圖源:Rokid
值得一提的是,通過音素識別解決方案打造的數(shù)字人引擎,在無需額外的攝像頭捕捉面部的情況下,僅通過音頻就能識別出人講話的口型和情緒狀態(tài),實現(xiàn)聲音和表情的高度同步,完整呈現(xiàn)用戶的喜怒哀樂,讓數(shù)字人形象更加靈活生動,可被廣泛應(yīng)用于游戲、社交、商超、公共場所導(dǎo)覽等場景。
圖源:Rokid
未來,Rokid數(shù)字人技術(shù)不僅將以SDK的方式向行業(yè)開發(fā)者開放,同時還將登錄Rokid Air AR智能眼鏡,支持用戶在設(shè)置界面定制自己的專屬形象,Rokid推出的多人在線協(xié)同應(yīng)用——MSpace,也將接入數(shù)字人技術(shù),讓用戶實現(xiàn)更好的交互體驗。
首創(chuàng)單目RGB攝像頭實現(xiàn)2D、3D手勢交互
目前主流的AR眼鏡一般都用ToF或多目攝像頭來實現(xiàn)手勢交互,但Rokid為面向未來的XR設(shè)備打造的方案僅通過單顆RGB攝像頭和高幀率IMU傳感器的VIO方法獲得穩(wěn)定性好、精確度高的6DoF追蹤效果,而且基于同一顆攝像頭相機共享數(shù)據(jù),還可以用于完成自然、靈動的手勢交互體驗。
單目2D RGB手勢交互演示
本次軟件產(chǎn)品演示分享會,Rokid技術(shù)團隊就演示了全新升級的單目2D RGB手勢交互技術(shù),并帶來了單目3D RGB手勢交互技術(shù)的最新成果。其中,單目2D RGB手勢交互實現(xiàn)了雙手聯(lián)動、虛空觸發(fā)以及抬拉拖拽等互動,實現(xiàn)了更高的靈活度和更自然的交互。
單目3D RGB手勢交互演示
基于深度學(xué)習(xí)算法和大量先驗數(shù)據(jù),使得使用單目RGB來重建3D Hand成為了可能。Rokid自研的單目3D手勢算法能在移動端實時重建手部姿態(tài)參數(shù),包括手部6DoF,手部關(guān)節(jié)點26DoF,以及Hand Mesh信息,為AR的手勢交互提供良好的算法基礎(chǔ)。
MSpace再升級
Light(WebXR)、AR導(dǎo)航原生應(yīng)用發(fā)布
在打造強有力的XR交互引擎的同時,Rokid技術(shù)團隊還帶來了Light(WebXR)、AR導(dǎo)航原生應(yīng)用,并對MSpace進行了重要更新。
① Light(WebXR):實現(xiàn)Web端XR開發(fā)者和應(yīng)用的輕松接入
市面上豐富的云游戲庫,該如何通過Rokid AR玩起來?如何戴著Rokid AR看電影、看小說、逛論壇、瀏覽網(wǎng)頁?輕量級內(nèi)容聚合平臺—— Light(WebXR)重磅亮相,一站式解決用戶多種需求。
圖源:Rokid
未來,Light(WebXR)將登錄Rokid Air應(yīng)用商店,為用戶帶來更多Web端XR應(yīng)用和資源。同時,Light(WebXR)支持了標(biāo)準(zhǔn)的WebXR API,歡迎更多Web端XR開發(fā)者參與到AR生態(tài)建設(shè)中。
② MSpace:通過虛擬化身+空間聲場技術(shù),打造更真實的臨場感
作為XR時代的原生應(yīng)用,MSpace具備屏幕共享、3D內(nèi)容協(xié)作、虛擬分身等核心能力。在此次軟件產(chǎn)品演示分享會中,Rokid技術(shù)團隊帶來了融合聲場渲染、虛擬分身驅(qū)動、空間協(xié)同、全息渲染等技術(shù)的升級版MSpace,實現(xiàn)了實時音頻驅(qū)動虛擬分身的口型、表情與動作,讓虛擬分身更形象生動。同時,升級版MSpace還支持空間中公有物體同步操作、私有物體隨心操作,虛擬物體準(zhǔn)確放置并能實現(xiàn)身臨其境的光影效果。
圖源:Rokid
③AR導(dǎo)航:更臨場感的導(dǎo)航體驗,迷路星人再也不迷糊
手機導(dǎo)航不方便,傳統(tǒng)的2D圖標(biāo)+單眼AR導(dǎo)航,不僅視角受限,提示還不夠明顯,AR導(dǎo)航急需革新!
在此次軟件產(chǎn)品演示分享會中,Rokid技術(shù)團隊就演示了圍繞立體感、臨場感和沉浸感為用戶打造的身臨其境、指哪去哪的AR導(dǎo)航體驗。
相較于傳統(tǒng)單眼模式,雙目AR導(dǎo)航會讓視覺在一定程度上減少和現(xiàn)實的割裂感,另外這款應(yīng)用還采用了近大遠小的空間透視關(guān)系和全局實時光照投影,能大幅度提升使用者的沉浸感。
圖源:Rokid
關(guān)于導(dǎo)航用戶最擔(dān)心的精度問題,Rokid AR導(dǎo)航通過采用高精度的地圖、GPS定位和磁力計校正來提高導(dǎo)航的精度。未來,Rokid AR導(dǎo)航還將加入SLAM技術(shù)和地理信息系統(tǒng)平臺,為用戶搭建一個真正的虛實結(jié)合的元宇宙出行平臺。
高能AI算法
一場關(guān)于技術(shù)變革的深度較量
在高能體驗的背后,都離不開強有力的算法支持。Rokid算法工程師的日常總是在極致中追求革新,落地人們關(guān)于元宇宙的一切暢想。此次,Rokid就公開發(fā)布包括Atauro Audio(6DoF空間聲場)以及全新端到端ASR算法等最新成果,從聲、形等多方面推動AR和AI技術(shù)革新。
①Atauro Audio(6DoF空間聲場):讓耳朵也進入元宇宙
在眼鏡之后,耳朵也要進入元宇宙啦!通過6DoF空間聲場技術(shù),Rokid正在實現(xiàn)關(guān)于“聲臨其境”的變革。6DoF空間聲場是聲音在三維領(lǐng)域的體現(xiàn),不同于傳統(tǒng)雙聲道、立體音帶來的聽覺體驗,6DoF空間聲場技術(shù)可以在混合現(xiàn)實中模擬聲源與人耳之間因空間位置變化、有無遮擋物等帶來的聲音強弱與方向的變化,從而讓AR眼鏡為用戶帶來更具臨場感的聽覺體驗。
現(xiàn)在來體驗一下:
6DoF空間聲場技術(shù)將會集成到全新升級版的YodaOS-XR操作系統(tǒng)中,作為YodaOS-XR操作系統(tǒng)的基礎(chǔ)能力供行業(yè)開發(fā)者們進行調(diào)用。同時,Rokid還計劃推進更多應(yīng)用于AR眼鏡的特殊音效的開發(fā),如環(huán)繞與微重低音的高保真音效等,以高效易用的SDK讓開發(fā)者真正實現(xiàn)即拿即用。
②全新端到端ASR算法:實現(xiàn)從坐火車到乘飛機的升級
Rokid語音技術(shù)不斷升級,通過全新端到端語音技術(shù),在原有基礎(chǔ)上實現(xiàn)字錯率降低30%。
同時,本次升級不僅僅是傳統(tǒng)意義上的優(yōu)化,而是實現(xiàn)了從0到1的工業(yè)級語音識別技術(shù)革新和更簡單的算法架構(gòu)、更快的訓(xùn)練速度、更簡單的接口、更容易的調(diào)試方式、更低的資源消耗,達到真正的“穩(wěn),準(zhǔn),快”效果。
未來,Rokid端到端語音技術(shù)還將在小語種、垂直領(lǐng)域定制賦能AR行業(yè)等方面不斷形成新的突破,值得期待。
系統(tǒng)框架再升級
更國際化、更開放、更高適配性
在此次軟件產(chǎn)品演示分享會中,Rokid技術(shù)團隊還帶來了全新升級的系統(tǒng)框架,包括多國語言、全息空間2.0、OpenXR標(biāo)準(zhǔn)等,讓Rokid YodaOS-XR操作系統(tǒng)更加強大。
其中,Rokid YodaOS-XR操作系統(tǒng)國際化再進一步,中、英、德、俄、西、葡、韓、日、意、法、馬來、阿拉伯語等多種語言即將發(fā)布,進一步助力Rokid全球業(yè)務(wù)的持續(xù)推進!
西班牙語演示
Rokid全息空間1.0也升級到了2.0版本。相較于1.0版本的頭控3DoF、眼鏡中3D展示、語音識別技術(shù)三個交互方面探索,全息空間2.0實現(xiàn)了統(tǒng)一的3D物體控制框架,能對虛擬空間中的模型進行移動、旋轉(zhuǎn)和縮放操作,從而使AR全息化體驗更強。這一能力,Rokid原生應(yīng)用MSpace已直接移植,為MSpace遠程協(xié)同空間添加更富有樂趣的全息模型。
圖源:Rokid
除了3D物體控制框架,全息空間2.0的多模態(tài)交互方式還由虛擬控制器+SLAM+空間音頻構(gòu)成,可以為用戶帶來更強的臨場感。值得一提的是,全息空間2.0僅通過一個RGB攝像頭開發(fā)完成,實現(xiàn)了性能與成本的高度平衡。
在技術(shù)不斷進步的同時,YodaOS-XR操作系統(tǒng)在宣布全面支持OpenXR標(biāo)準(zhǔn)后,行業(yè)合作和落地應(yīng)用也取得了突破性進展。在不久前,Rokid與行業(yè)主流3D引擎 Cocos 達成戰(zhàn)略合作,推動OpenXR標(biāo)準(zhǔn)全面落地。基于OpenXR標(biāo)準(zhǔn)打造的AR示例游戲《幽靈射手》也將登錄Rokid Air應(yīng)用商店,這也是Rokid YodaOS-XR操作系統(tǒng)宣布全面支持OpenXR標(biāo)準(zhǔn)以來,首款基于此標(biāo)準(zhǔn)接入的應(yīng)用。
圖源:Rokid
基于OpenXR標(biāo)準(zhǔn),Rokid將與更多行業(yè)開發(fā)者、游戲引擎公司達成合作,共同催動內(nèi)容創(chuàng)作者的產(chǎn)出,為用戶提供更為良好的內(nèi)容環(huán)境,真正實現(xiàn)雙贏。
技術(shù)的持續(xù)革新,延續(xù)著產(chǎn)品的生命力。Rokid技術(shù)工程師們對極致技術(shù)的追求,正在讓更自然的AR交互體驗變成現(xiàn)實。未來,Rokid將持續(xù)把最新的交互和技術(shù)融入操作系統(tǒng)YodaOS-XR中,打造全新的AR體驗。在奔向AR未來的旅途中,讓我們一起期待Rokider為行業(yè)開發(fā)者以及用戶創(chuàng)造的驚喜!
*聲明:企業(yè)通稿非VR陀螺官方稿,法律問題一律與VR陀螺無關(guān)。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文經(jīng)原作者授權(quán)發(fā)布,不代表VR陀螺立場,如需轉(zhuǎn)載請直接聯(lián)系原作者
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息