發(fā)布時(shí)間:2019-10-17 10:54 | 標(biāo)簽:
手勢(shì)識(shí)別 深度學(xué)習(xí) 凌感uSens
微信掃一掃:分享
微信里點(diǎn)“發(fā)現(xiàn)”,掃一下
二維碼便可將本文分享至朋友圈
文/VR陀螺
隨著Oculus將于2020年初在Quest中加入手勢(shì)識(shí)別功能這一消息發(fā)布,手勢(shì)交互終于打破局面,開始真正走向消費(fèi)端。
為什么普通攝像頭+深度學(xué)習(xí)方案更適合VR/AR?
此次Oculus Quest手勢(shì)識(shí)別使用了基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別的技術(shù)方案。(感謝凌感科技uSens費(fèi)越博士對(duì)本文技術(shù)部分的支持)
VR陀螺從費(fèi)越博士口中了解到,目前基于計(jì)算機(jī)視覺的手勢(shì)方案實(shí)際上也分為兩種:一種是用深度攝像頭,一種是用一個(gè)或者多個(gè)普通攝像頭實(shí)現(xiàn)。而其中深度攝像頭的方案又分為兩種,TOF(Time of Flight,光飛時(shí)間)和結(jié)構(gòu)光。實(shí)際上結(jié)構(gòu)光,或者TOF輸出的東西基本一樣,都是一張深度圖。
相對(duì)于兩種使用深度攝像頭的方案,基于一個(gè)或多個(gè)普通攝像頭實(shí)現(xiàn)的手勢(shì)識(shí)別難度更高,但得益于技術(shù)發(fā)展,其在精度、成本綜合性能上正在成為主流。業(yè)內(nèi)的Leap Motion、凌感uSens就是使用這種方案,Oculus Quest也是使用原有的用于SLAM和手柄跟蹤的四個(gè)灰度攝像頭用深度學(xué)習(xí)算法來實(shí)現(xiàn)的手勢(shì)識(shí)別。
凌感uSens自2015年就開始使用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)手勢(shì)識(shí)別,并在2017年發(fā)布了和Oculus Quest類似的基于灰度攝像頭的手勢(shì)識(shí)別及SLAM方案。 不久前凌感還研發(fā)發(fā)布了單目RGB相機(jī)上的三維手勢(shì)骨骼識(shí)別,可識(shí)別手部全部22個(gè)關(guān)節(jié)點(diǎn)的26DOF(26自由度)信息,關(guān)節(jié)點(diǎn)包括3D位置信息和3D旋轉(zhuǎn)信息。在單目RGB相機(jī)上實(shí)現(xiàn)三維手勢(shì)骨骼識(shí)別相對(duì)于多個(gè)灰度相機(jī)的方案來說算法的難度更高。
近年來TOF方案在手機(jī)上應(yīng)用越來越廣泛,也是最容易實(shí)現(xiàn)深度信息的方案,但在VR、AR設(shè)備上卻幾乎沒有。原因可以從以下幾個(gè)方面來看:
AR、VR對(duì)相機(jī)要求非常高,首先必須做到延遲非常低。據(jù)稱,普通相機(jī)延遲可以達(dá)到4ms以下,從相機(jī)獲取圖像到把圖像傳過來的延遲都控制在10ms以下。但TOF相機(jī)難以做到,一般TOF相機(jī)獲取圖像的過程延遲約為四五十毫秒。因?yàn)門OF相機(jī)的工作原理不是拍一張圖像,而是要連續(xù)拍多張圖像,再根據(jù)圖像不同的激光的相位,來還原出深度信息。而拍多張的后果導(dǎo)致延時(shí)高,并且要求一定的計(jì)算,也需要耗時(shí)。同時(shí),這種方案還會(huì)有一些運(yùn)動(dòng)模糊,如果手動(dòng)作特別快,在多張圖像中的位置不同,也會(huì)導(dǎo)致信息測(cè)算不精準(zhǔn)。
對(duì)于AR、VR來說,它的要求比一般手機(jī)識(shí)別人臉的要求高非常多。手不管動(dòng)得多快,都必須有反應(yīng),需要精確、低延遲,不然容易產(chǎn)生眩暈。
TOF的第二個(gè)問題在于視角。在VR中追蹤范圍越大,手、手柄能夠運(yùn)動(dòng)的幅度就越大,灰度相機(jī)配上魚眼鏡頭可以視角達(dá)到160度以上,多相機(jī)系統(tǒng)可以達(dá)到200度以上的覆蓋范圍。但一般性能比較好的TOF,視角約為60度,最大也只有90度左右。
TOF在手機(jī)上可行,但對(duì)VR、AR應(yīng)用來說,致命的就是延遲和視角。
所有VR、AR硬件低成本加入高精度手勢(shì)識(shí)別成為可能
得益于計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)的發(fā)展,終于能夠在普通攝像頭上實(shí)現(xiàn)精度較高的手勢(shì)識(shí)別,當(dāng)然要實(shí)現(xiàn)起來并沒有那么簡(jiǎn)單。
根據(jù)資料,F(xiàn)acebook對(duì)VR的手勢(shì)識(shí)別感興趣的第一個(gè)跡象早就在2014年底顯露出來。其收購了由4名資深手勢(shì)識(shí)別技術(shù)專家組成的初創(chuàng)公司Nimble VR。但是收購之后,Oculus清楚地知道該技術(shù)“甚至可能不會(huì)在CV2或CV3中使用”。2016年的OC3大會(huì)上,首席科學(xué)家Michael Abrash預(yù)測(cè)在2021年的VR中能夠使用基于手套上標(biāo)記實(shí)現(xiàn)的手勢(shì)識(shí)別,這時(shí)在Oculus的計(jì)劃中仍然是手套形態(tài)。
不過在2018年的F8上,Oculus終于展示了高質(zhì)量的無手套、無標(biāo)記的手勢(shì)識(shí)別,并提到這一“突破”是由于Facebook在機(jī)器學(xué)習(xí)研究上的大量投資而得以實(shí)現(xiàn)。
實(shí)際上,早在2015年,凌感基于普通相機(jī)+深度學(xué)習(xí)的方案已經(jīng)研發(fā)出來。
要讓手勢(shì)識(shí)別實(shí)現(xiàn)更高的精度,識(shí)別更多的關(guān)節(jié)點(diǎn)是其中最基礎(chǔ)的部分,比較高級(jí)的能夠做到識(shí)別22個(gè)關(guān)節(jié)點(diǎn)26自由度的手部運(yùn)動(dòng)信息,如凌感uSens、Leap Motion以及Oculus收購的NimbleVR等。
另外,對(duì)手勢(shì)識(shí)別精度起到?jīng)Q定性的還有兩個(gè)因素:一個(gè)是模型是否好,只有好的模型才能預(yù)測(cè)出來更多3D的點(diǎn)。第二是需要有足夠的高精度的數(shù)據(jù),才能訓(xùn)練出來好的模型。
因?yàn)樯疃葘W(xué)習(xí)有推測(cè)功能,從不完全的信息可以推測(cè)出來完全的信息。手不像人臉,手的運(yùn)動(dòng)非常復(fù)雜,經(jīng)常會(huì)出現(xiàn)遮擋問題,甚至兩個(gè)手相互遮擋,所以信息是不全的,如何從不全的信息推理出來全的信息,就需要用到深度學(xué)習(xí)不斷訓(xùn)練和積累。據(jù)稱凌感的手勢(shì)識(shí)別經(jīng)過多年積累已經(jīng)可以在被遮擋超過50%的情況下,將誤差控制在5%以下。
據(jù)費(fèi)越博士稱,VR、AR設(shè)備中加入手勢(shì)識(shí)別,可以基于已有的用于SLAM的灰度攝像頭直接實(shí)現(xiàn),不需要增加外部硬件。
在inside-out追蹤成為主流的如今,近兩年無論是PC端VR頭顯還是移動(dòng)端VR一體機(jī),亦或是AR眼鏡,幾乎都加入了SLAM定位功能。這樣的大前提為手勢(shì)識(shí)別技術(shù)的普及帶來了極為有利的條件。
目前大部分用于SLAM的攝像頭均為魚眼或者廣角灰度攝像頭,在實(shí)現(xiàn)的精度上,用同樣的計(jì)算資源或者用同樣復(fù)雜度模型的話,基于深度的或者灰度的攝像頭能夠做到精度最高,RGB的精度反而相對(duì)會(huì)弱一些,因此,直接在SLAM的相機(jī)上實(shí)現(xiàn)手勢(shì)識(shí)別的精度也能夠達(dá)到比較滿意的效果。
另外,對(duì)于頭顯的功耗負(fù)擔(dān),據(jù)費(fèi)越博士稱,以凌感自己的產(chǎn)品為例,在同時(shí)運(yùn)行SLAM定位追蹤和手勢(shì)識(shí)別的情況下,即使完全使用CPU的模式下,所占用的CPU的資源可以能夠控制在30%以內(nèi),所以大部分的CPU運(yùn)算能夠留給軟件運(yùn)行。另外凌感的手勢(shì)識(shí)別目前還針對(duì)高通、MTK、瑞芯微等芯片中的NPU做了移植,進(jìn)一步降低了CPU資源占用。
此外,為了擴(kuò)大手柄的追蹤范圍,目前的VR/AR頭顯采用了更多的攝像頭,如Quest、Vive Comos使用4個(gè)攝像頭,Rift S采用5個(gè)攝像頭。之前手勢(shì)需要手保持在眼前位置才能精準(zhǔn)捕捉到,隨著頭顯追蹤攝像頭的增加,也極大擴(kuò)展了手的可捕捉范圍。
“最自然交互”手勢(shì)識(shí)別將成VR/AR頭顯標(biāo)配
在Oculus Quest之前,手勢(shì)識(shí)別實(shí)際上已經(jīng)成為了AR眼鏡中最基本的交互方式,而VR上Vive Focus等設(shè)備也都開啟了嘗試。
手勢(shì)識(shí)別如果要大規(guī)模應(yīng)用,僅靠以B端為主的AR難以實(shí)現(xiàn)。而在VR端,目前真正面向消費(fèi)端的帶有該功能設(shè)備以及相關(guān)應(yīng)用都極其稀缺。
作為現(xiàn)階段全球在消費(fèi)端最有潛力的VR一體機(jī),Quest上加入手勢(shì)識(shí)別功能或許將打破這一現(xiàn)狀。
實(shí)際上在使用基于計(jì)算機(jī)視覺方案之前,Oculus Touch手柄已經(jīng)實(shí)現(xiàn)了一部分手勢(shì)動(dòng)作,如握拳、豎拇指、開槍等手勢(shì),包括Valve Index的指虎手柄,也是為了在游戲中呈現(xiàn)更為自然的手部動(dòng)作。Quest加入手勢(shì)識(shí)別,意味著這一技術(shù)終于真正開始面向消費(fèi)端用戶,也將帶來更多開發(fā)者針對(duì)這一交互開發(fā)探索出更多的內(nèi)容形態(tài)。
費(fèi)越也提到,凌感的手勢(shì)識(shí)別目前主要應(yīng)用在三大領(lǐng)域,以AR、VR、手機(jī)為主的2C領(lǐng)域,汽車領(lǐng)域以及工業(yè)自動(dòng)化領(lǐng)域,其中VR、AR、手機(jī)領(lǐng)域需求增長(zhǎng)非常迅速。
“交互的最終形態(tài)不需要定義,他做的就是人在真實(shí)世界里面要做的事情。”
VR、AR的獨(dú)特之處在于沉浸感,而在沉浸環(huán)境中,最自然的交互莫過于與現(xiàn)實(shí)中一樣,揮手打招呼、猜拳、握手、抓取、擊掌……
從智能終端的發(fā)展來看,從PC到手機(jī),一切都在簡(jiǎn)化,特別是在智能手機(jī)時(shí)代,交互簡(jiǎn)化到只需要滑動(dòng)、點(diǎn)擊,就連2、3歲的小孩都能輕易上手。
VR、AR的交互復(fù)雜,也代表著用戶的學(xué)習(xí)成本越高,同時(shí)也容易“出戲”?,F(xiàn)在除了純觀影類的內(nèi)容之外,幾乎所有帶交互內(nèi)容都需要一定的學(xué)習(xí)過程,用戶需要在體驗(yàn)過程中記住每個(gè)按鍵所對(duì)應(yīng)的功能。
即使Index指虎手柄能夠感應(yīng)到手指在其中的運(yùn)動(dòng),不過對(duì)于更細(xì)致的骨骼追蹤精度與專業(yè)的手勢(shì)識(shí)別技術(shù)仍然有一定的差距,而且手柄會(huì)受到每個(gè)人手部大小的限制,也難以實(shí)現(xiàn)握手、雙手合十、交叉等等復(fù)雜姿勢(shì)。
手柄與手勢(shì)兩種交互方式各有優(yōu)劣和適合的使用場(chǎng)景。比如手勢(shì)無法實(shí)現(xiàn)手柄按鍵的物理反饋,特別是射擊類型的游戲體驗(yàn)中,扣動(dòng)扳機(jī)的反饋是手勢(shì)絕對(duì)難以做到的;以及Index指虎手柄的壓力反饋,能夠在虛擬環(huán)境中呈現(xiàn)握力,手勢(shì)識(shí)別亦無法實(shí)現(xiàn)。
而在諸如模擬、社交類這類的內(nèi)容中,越接近真實(shí)的場(chǎng)景對(duì)于手勢(shì)越有優(yōu)勢(shì),開發(fā)者可拓展性也更強(qiáng)。
手勢(shì)在需要觸覺反饋的體驗(yàn)上無法取代手柄,而手柄也無法自然地實(shí)現(xiàn)手部動(dòng)作的呈現(xiàn)以及復(fù)雜的手部姿態(tài),但從毋庸置疑的是未來手勢(shì)將會(huì)變成XR設(shè)備中不可或缺的一種交互方式,越來越普及。
第一時(shí)間了解XR資訊
關(guān)注VR陀螺官網(wǎng)(vrtuoluo.cn)
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)