文/VR陀螺 林德
手勢(shì)識(shí)別在VR交互中是一個(gè)十分重要的技術(shù),被視為計(jì)算機(jī)理解人體語(yǔ)言的一種必然方式。自從Ouclus在2019年12月正式推出手勢(shì)追蹤功能之后,手勢(shì)識(shí)別的功能在開(kāi)發(fā)者和用戶中受到了很大的歡迎。但這也是Oculus在收購(gòu)了手勢(shì)識(shí)別相關(guān)的技術(shù)公司時(shí)隔4年后,才正式推出的手勢(shì)追蹤功能。
可見(jiàn),手勢(shì)交互技術(shù)還存在技術(shù)難度。
雖然手勢(shì)識(shí)別目前仍受到很多的限制,但在虛擬空間模擬現(xiàn)實(shí)中與物體的交互行為上,比起技術(shù)難度更大、風(fēng)險(xiǎn)更大的“腦機(jī)接口”,手勢(shì)識(shí)別顯得更加直接自然,因此很多的團(tuán)隊(duì)都在持續(xù)不斷地研究手勢(shì)識(shí)別的計(jì)算。
圖源:Techspot
近日,由Facebook虛擬實(shí)驗(yàn)室、愛(ài)丁堡大學(xué)以及香港大學(xué)組成的團(tuán)隊(duì)發(fā)表了他們?cè)谑治锝换ミ@方面的最新論文成果《ManipNet: Neural Manipulation Synthesis with a Hand-Object Spatial Representation》。雖然目前這項(xiàng)研究成果還處于初步階段,但從該團(tuán)隊(duì)發(fā)表的論文的實(shí)驗(yàn)數(shù)據(jù)來(lái)看,這一研究的應(yīng)用將極大提高手物交互的擬真度和靈巧度,使手勢(shì)識(shí)別技術(shù)向著全自由交互邁進(jìn)的一大步。
ManipNet:
基于手-物體的空間表征算法
根據(jù)研究,人們每天平均與140個(gè)物體互動(dòng),并且這些進(jìn)行交互的日常物品形態(tài)是多種多樣的。人們通過(guò)復(fù)雜的手指動(dòng)作與物體進(jìn)行交互,但在VR或AR體驗(yàn)中,由于控制器無(wú)法產(chǎn)生自然且真實(shí)的手部動(dòng)作,會(huì)導(dǎo)致體驗(yàn)沉浸感遭到破壞。想要達(dá)到完全的自然沉浸感,關(guān)鍵在于如何基于計(jì)算機(jī)算法,模擬出人手部自然交互操作上的細(xì)微變化。
目前,手勢(shì)識(shí)別的技術(shù)主要是通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)的,人們自然情況下的手部操作是依靠復(fù)雜的手指動(dòng)作呈現(xiàn)的,如果依靠單純的數(shù)據(jù)學(xué)習(xí)方式學(xué)習(xí)手的靈巧操作將需要大量的數(shù)據(jù)。因此鑒于行業(yè)內(nèi)深度學(xué)習(xí)研究的成功,該團(tuán)隊(duì)提出一個(gè)名為ManipNet的深度神經(jīng)網(wǎng)絡(luò)算法。所謂的深度神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)分支,是通過(guò)人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對(duì)輸入資料進(jìn)行表征學(xué)習(xí)的算法。
圖源:網(wǎng)絡(luò)
ManipNet是該團(tuán)隊(duì)研究人員利用手-物體的空間關(guān)系特征,直接從數(shù)據(jù)中學(xué)習(xí)手部的自然操作行為的深度學(xué)習(xí)算法。團(tuán)隊(duì)計(jì)劃通過(guò)對(duì)有限的物體數(shù)據(jù)樣本的學(xué)習(xí)擴(kuò)展到幾何變化上。也就是說(shuō),通過(guò)對(duì)小量物體形狀的深度學(xué)習(xí)類(lèi)推到不同幾何變化的物體上。
該團(tuán)隊(duì)表示,他們研究的空間表征算法結(jié)合了作為體素占比(三維空間分割上的最小單位)的整體物體形狀和作為最近距離樣本的物體局部的幾何細(xì)節(jié)。這種算法使得深度神經(jīng)網(wǎng)絡(luò)可以通過(guò)從手腕和物體的輸入軌跡中模擬手指運(yùn)動(dòng)。
具體來(lái)說(shuō)就是該團(tuán)隊(duì)為ManipNet提供了幾個(gè)時(shí)間節(jié)點(diǎn)的手指運(yùn)動(dòng)軌跡,過(guò)去、現(xiàn)在、未來(lái),以及這些軌跡中提取的空間表征,然后深度神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)這些已有的數(shù)據(jù)生成一個(gè)自回歸模型,預(yù)測(cè)從過(guò)去、現(xiàn)在到未來(lái)這幾個(gè)節(jié)點(diǎn)之間缺少的其他手指姿態(tài)。
如圖1所示,ManipNet是從控制信號(hào)和物體幾何特征中預(yù)測(cè)對(duì)象操縱的手指姿態(tài),其中控制信號(hào)是手腕和物體的6D軌跡,并且該深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)公式需要一個(gè)最小的和明確的輸入表示,以便實(shí)現(xiàn)更好的泛化。
圖源:Facebook Research
此外,該團(tuán)隊(duì)表示在設(shè)計(jì)ManipNet時(shí),該算法只處理一個(gè)手-物體的“輸入”。團(tuán)隊(duì)研究人員通過(guò)鏡像,運(yùn)行兩次該網(wǎng)絡(luò),為雙手生成預(yù)測(cè)圖像。“這種設(shè)計(jì)允許我們轉(zhuǎn)換手的空間中的輸入特征,使我們能夠處理交互作用的手的不同組合。”
該團(tuán)隊(duì)還展示了其系統(tǒng)的運(yùn)行框架概述,如下圖所示。其中手腕和物體的運(yùn)動(dòng)軌跡、手部的皮膚網(wǎng)格和物體的三維幾何圖形作為“輸入”對(duì)象,深度神經(jīng)網(wǎng)絡(luò)ManipNet作為自回歸模型,會(huì)逐幀輸出生成手指的詳細(xì)姿勢(shì)。
系統(tǒng)框架(圖源:Facebook Research)
為了避免ManipNet對(duì)訓(xùn)練出現(xiàn)過(guò)度擬合的情況導(dǎo)致預(yù)測(cè)結(jié)果偏差較大,同時(shí)提高該系統(tǒng)的通用性,該團(tuán)隊(duì)利用了三種類(lèi)型的虛擬傳感器來(lái)編碼物體的幾何形以及與手的空間關(guān)系。這三個(gè)虛擬傳感器以粗體素網(wǎng)格捕捉整體物體形狀,以點(diǎn)樣式捕捉局部幾何細(xì)節(jié)為樣本。
圖源:Facebook Research
團(tuán)隊(duì)對(duì)此解釋?zhuān)m然整體物體特征有助于系統(tǒng)規(guī)劃整體姿態(tài)和預(yù)測(cè)未來(lái)運(yùn)動(dòng)軌跡,但物體的局部特征發(fā)揮著更加重要的作用——能夠使算法拓展到任何幾何形狀。
該團(tuán)隊(duì)還表示,目前通過(guò)從少量的物體形和廚具物品種學(xué)習(xí),ManipNet已經(jīng)能夠合成各種手指姿態(tài),以抓取更復(fù)雜的幾何物體。
“我們?cè)诒疚闹虚_(kāi)發(fā)的具有高通用性的表示法有可能應(yīng)用于基于DRL的基于物理的對(duì)象操作技術(shù)。我們提出了一個(gè)神經(jīng)網(wǎng)絡(luò)公式來(lái)合成使用雙手操作物體的手指運(yùn)動(dòng),我們的關(guān)鍵貢獻(xiàn)是在操縱中代表手和物體之間的空間關(guān)系的特征。”
總體看來(lái),該團(tuán)隊(duì)在手物交互這一方面做出了以下貢獻(xiàn):
一個(gè)基于深度學(xué)習(xí)的運(yùn)動(dòng)合成系統(tǒng),可以為單/雙手的物體操作產(chǎn)生靈巧詳細(xì)的手指動(dòng)作;
一種手-物體空間表征的算法,能提高神經(jīng)網(wǎng)絡(luò)的通用性;
提供一個(gè)手物交互的運(yùn)動(dòng)數(shù)據(jù)集,包括詳細(xì)的手指運(yùn)動(dòng)和16個(gè)手-物體的操作運(yùn)動(dòng)。
ManipNet或?qū)⒃赩R/AR應(yīng)用上潛力十足
由于手部活動(dòng)的靈活度以及因人而異的大小、體積等問(wèn)題,動(dòng)畫(huà)師通常不得不手動(dòng)設(shè)計(jì)與捕捉到的全身運(yùn)動(dòng)相匹配的手指運(yùn)動(dòng),或者使用單獨(dú)的設(shè)備來(lái)產(chǎn)生手指運(yùn)動(dòng)。此外,還有數(shù)據(jù)的可變化性、運(yùn)動(dòng)捕捉相機(jī)分辨率的提高和追蹤手指關(guān)節(jié)等技術(shù)的發(fā)展原因,導(dǎo)致當(dāng)前手物交互方面的研究仍然充滿局限性。
該團(tuán)隊(duì)在論文中也表示,對(duì)物體的靈巧操作是一個(gè)相當(dāng)困難的問(wèn)題,需要考慮手和物體之間的動(dòng)態(tài)交互,即使通過(guò)基于物理基礎(chǔ)的模擬,已經(jīng)開(kāi)發(fā)了操作對(duì)象的方法,但這種手-物體操作的開(kāi)發(fā)還有待探索。
圖源:網(wǎng)絡(luò)
即便如此,團(tuán)隊(duì)研究人員認(rèn)為手物交互在游戲和AR/VR實(shí)時(shí)交互應(yīng)用中有很大的潛力。
“隨著AR/VR硬件在消費(fèi)者市場(chǎng)的崛起,將我們的系統(tǒng)與其內(nèi)置對(duì)象跟蹤相結(jié)合為新的互動(dòng)內(nèi)容打開(kāi)了許多創(chuàng)造性的機(jī)會(huì)。”
參考鏈接:https://research.fb.com/publications/manipnet-neural-manipulation-synthesis-with-a-hand-object-spatial-representation/
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信:vrtuoluo233 申請(qǐng)授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來(lái)源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來(lái)自互聯(lián)網(wǎng)或無(wú)法核實(shí)出處,如涉及版權(quán)問(wèn)題,請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息