文/VR陀螺 萬里
Vision Pro發(fā)布后,有人評價這款產品是現有VR/AR、顯示、光學、人機交互技術的集大成者。雖然里面罕見新技術以及新場景,但它把原有的XR體驗提升至了一個新的高度。
以交互為例,以往手柄是頭顯的標配,有部分廠商還進行了手勢識別的探索,而Vision Pro帶來的解決方案是“眼動追蹤+手勢+語音”。蘋果把常見的眼動追蹤技術融入進了核心交互中,并為我們呈現了最為自然的體驗。
以眼動追蹤為核心,蘋果定義標桿級XR交互方式
眼動追蹤指的是測量注視點或眼睛相對頭部的運動過程,它并非前沿技術,其最早的研究甚至可以追溯到19世紀。
目前眼動追蹤技術包含了眼電圖EOG法、鞏膜搜索線圈法、眼睛影響捕獲、通過視網膜影像變化、圖像計算進行注視點追蹤、視網膜角膜反射法等技術路線,陀螺君了解到,瞳孔角膜反射法是目前的主流,也是一眾具有量產性的方案中最為可靠的一種。
此前VR陀螺文章《新一代XR頭顯標配,詳解眼動追蹤技術的價值和挑戰(zhàn)》對瞳孔角膜反射法已有相關介紹,簡單來說,該方案由眼動攝像機、光源和算法共同完成。光源發(fā)射紅外光在眼角膜反射形成閃爍點,眼動攝像機捕捉眼睛的高分辨率圖像,再經由算法解析,實時定位閃爍點與瞳孔的位置,最后借助模型估算出用戶的視線方向和落點。
眼動追蹤技術多應用于醫(yī)療健康、廣告、社科等領域,近年來,伴隨著VR/AR的發(fā)展,它在里面開始發(fā)揮越來越重要的作用。如2015年,FOVE 0頭顯在Kickstarter展開眾籌,其核心賣點便是配備了眼動追蹤技術。FOVE指出,其眼動追蹤技術可用于控制游戲角色移動、注視點渲染、醫(yī)療健康等。
FOVE 0,圖源:網絡
近年發(fā)布的PICO 4 Pro、Quest Pro、PS VR2等產品同樣配備了眼動追蹤技術。以Quest Pro為例,在眼動追蹤的加持下,Avatar可獲得更為豐富的眼神細節(jié)信息,此外,結合注視點渲染(ETFR)技術,最高可節(jié)約近52%的GPU性能。而PICO 4 Pro則把眼動追蹤與自動瞳距調節(jié)功能結合在了一起。有關眼動追蹤的更多應用場景,可查看VR陀螺過往文章《【盤點】眼動追蹤在XR中的八大應用,注視點渲染僅是“前菜”》
除前面提到的這些功能外,基于眼動追蹤的交互也是頗具潛力的應用場景之一。此前Meta Reality Labs的一份關于“手柄、頭動以及眼動交互”的一份研究指出,以90Hz運行的平均精度誤差低于1°的眼動追蹤系統(tǒng)(在無光標或其他反饋的條件下),它在易用性、采用率和疲勞度相較于頭部輸入(Head input )分別提高了66.4%、89.8%和116.1%,而相較于手柄輸入則分別降低了4.2%、8.9% 和 116.1%,不過它的失誤率是三者當中最高的。論文總結道,隨著交互設計的改進,眼動追蹤對于下一代AR/VR設備而言具有巨大的潛力。
實驗中出現的三種交互方式,圖源:Meta
微軟于2019年發(fā)布的HoloLens 2同樣支持眼動追蹤功能,其產品開發(fā)者文檔中提到了眼動追蹤交互的幾大優(yōu)勢:
陀螺君了解到,近年來XR眼動追蹤模組的價格已經進入了一個快速下探期。早期眼動追蹤在XR產品中滲透率低,整體價格比較高,如2019年亮相的Pico G2 4K眼球追蹤一體機,眼動追蹤上機成本約兩千元。如今眼動追蹤模組的BOM+License成本已經下探到了兩百多。
一方面是Vision Pro的激勵作用,另一方面是價格的下探,相信我們很快就能看到更多配備眼動追蹤技術的XR新品推出。
高規(guī)格硬件+算法積累,Vision Pro帶來高精度眼動體驗
在Vision Pro發(fā)布前,其預測消息已經滿天飛。以交互為例,有人認為是肌電手環(huán)+手勢,也有人認為是Siri+手勢等。而Vision Pro特別引入了眼動追蹤,會后在很多人看來這有一種意料之內而又大吃一驚的感覺。
一方面,用眼動做交互并不復雜,一位XR從業(yè)者告訴陀螺君,早些年他曾經做過一個類似的解決方案,即通過眼動進行選擇,然后用頭動(Head Tracking)進行數據修正再用按鍵點擊確認,他把這種交互稱之為多階交互法。
就在Vision Pro發(fā)布不久后,一個名為ThrillSeeker的YouTuber只花費了兩天時間,便在Quest Pro的基礎之上復刻了一套“手勢+眼動”的交互演示demo。他指出,雖然Quest Pro的眼動追蹤硬件精度稍差,但運行起來一切正常。
圖源:Youtube
而另外一方面,讓很多人“大吃一驚”的地方在于,Vision Pro完全舍棄了如今最為成熟的手柄方案,并激進地選擇了尚未成熟的眼動追蹤作為交互的核心。
以Quest Pro為例,在很多用戶看來,它的眼動追蹤只是一個“感知不強、徒增功耗”的小功能,并且Meta對它也不受待見。它在系統(tǒng)中處于默認關閉的狀態(tài),用戶需要在設置欄中自行啟用。此外,它的應用場景嚴重缺失,能讓用戶明顯感知的唯二功能不過是Avatar照鏡子以及眼動錄入與校準的小動畫。
第三方應用程序方面,雖說也有主打眼動追蹤的應用,但它們以實驗探索性的demo居多。如SideQuest有一款眼動追蹤打字demo《Eye Tracking Keyboard》,陀螺君體驗發(fā)現,它在操作上比較科幻,但是經常會出現視線抖動以及對不準的情況,暫未清楚是硬件問題還是軟件問題。
圖源:VR陀螺
相反,Vision Pro的上手體驗媒體均對它的眼動追蹤交互給予了很高的評價:用戶的眼睛就像是PC端的鼠標,眼睛注視圖標然后雙指捏合,即可打開新的應用;眼睛在菜單欄停留一段時間會自動彈出二級菜單.......很多人表示這簡直就是魔法。
從這些評價中不難發(fā)現,Vision Pro的眼動追蹤交互技術已經具有極高可用性以及易用性,而這是Vision Pro在硬件、算法、UI三方面同時發(fā)力的結果。
眼動儀器常見的指標主要有兩種,分別是準確度(Accuracy)和精確度(Precision),前者反映的是凝視位置與真實凝視位置之間的差異,后者則反映的是持續(xù)記錄同一個注視點時的離散程度。這些數據能直觀反映眼神標定究竟“準不準”。
前面提到的FOVE 0,其官方宣稱眼動追蹤準確度可以達到1°、HoloLens 2的準確度在1.5°左右,市面上某款在售XR眼動追蹤模組宣稱其準確度可以做到<0.5°。陀螺君測算,在正常使用電腦的情況下,大圖標的肉眼視角約為1.5°,單一文字的視角約為0.38°(僅供參考,不一定準確)。
目前Vision Pro并未公布其眼動追蹤模組的具體規(guī)格,不過據部分Vision Pro體驗用戶反饋稱,Vision Pro的眼動交互可以實現文本選擇復制粘貼等操作,從這方面來看它的準確度應該妥妥屬于XR第一梯隊。
圖源:微軟
此外,Vision Pro的眼動追蹤硬件也十分豪華,它左右眼分別配備了兩顆紅外攝像頭,相比之下Quest Pro以及PS VR2等產品僅配備了左右眼各一顆攝像頭。兩顆攝像頭加入,在保障追蹤精度的同時,還能用于測算雙眼瞳深,進而完善預畸變算法以實現更好的畫面顯示效果。
圖源:蘋果
微軟HoloLens 2軟件開發(fā)指南中曾提到,人眼視線的運動是不規(guī)則且跳躍的,并且速度很快??赡茉谟脩敉瓿牲c擊動作之前,視線早已經飄走,因此將快速眼睛凝視信號與慢速的控制輸入結合起來需要格外小心。
在算法方面,蘋果已經有很多年的技術儲備。早在2017年,蘋果收購德國眼動追蹤技術開發(fā)商SensoMotoric Instruments(SMI),這是一家專注于該細分領域的頭部企業(yè),已有30余年的發(fā)展歷史。2017年,蘋果首次將眼動追蹤功能應用于其Face ID中,以提升解鎖的安全性。而近些年來,蘋果陸續(xù)有眼動追蹤相關專利申請流出,這為Vision Pro的交互奠定了良好的基礎。
蘋果前員工Sterling Crispin爆料稱,蘋果圍繞Vision Pro有一個專門研究神經技術的開發(fā)小組,而他所做的工作之一是通過AI預判用戶的操作行為。他提到,“你的瞳孔會在你點擊某物之前作出反應,部分原因在于用戶對接下來發(fā)生的事有所期望。因此,可以通過觀察用戶的眼睛行為并配合實時反饋的UI來增強用戶大腦的預測性瞳孔反應,從而創(chuàng)建生物反饋。”
AI算法的加入,也是Vision Pro的眼動交互備受好評的重要原因之一。
圖源:蘋果
降低手勢門檻,提升UI審美,“隱性”層面提升交互幸福感
除硬件以及算法外,人機交互設計也是蘋果的一貫強項。業(yè)內人士告訴陀螺君,“基于蘋果這套眼動追蹤硬件,開發(fā)者其實也能實現高精度的眼球操作,里面的算法其實并不難,真正難的是蘋果所開發(fā)的這一整套交互邏輯。”
前面提到,Vision Pro配備的是以“眼動+手勢+語音”的多模態(tài)交互解決方案,這也是從產品底層出發(fā)推導的結果。
目前市面上已有不少基于眼動追蹤的單一交互解決方案,如掃視選擇凝視確認(如上面的鍵盤demo)、眨眼確認、雙重凝視(快速掃視兩次進行確認)等,不過這些方案總體而言都不符合自然的使用直覺,所以Vision Pro在此基礎上補充了手勢。
雙重凝視,圖源:ISMAR
而對于手勢而言,Vision Pro也進行了一系列優(yōu)化。此前Quest 2、HoloLens等產品飽受詬病的地方在于其視覺盲區(qū)很大,使得用戶使用裸手交互時需要把手抬起來,使用過程中非常容易疲勞。而Vision Pro則配備了四顆用于手勢識別的攝像頭,可以檢測腰部以下的手勢,用戶甚至可以把手放在膝蓋上進行操作。也就是說,在這種情況下,蘋果保證了“眼動+手勢”不會成為其體驗的減分項。
在之前,UI設計并非頭顯“剛性”的需求,因為它并不影響功能的實現,不過,蘋果在這方面也花費了很大的功夫,以保證體驗的飽滿。WWDC 2023期間,蘋果圍繞Vision Pro的軟件開發(fā)帶來了一系列主題分享,其中《空間輸入設計》中介紹了有助于提升眼動追蹤體驗的設計規(guī)范:
來源:蘋果
為了讓眼動追蹤交互能夠正常響應,視覺的反饋是必須的。蘋果在這方面同樣提供了底層級的支持。比如用戶視線掃過某個APP圖標時,它會出現相應的3D效果,當用戶查看菜單欄時,也會有相應的光流效果出現。
陀螺君了解到,在軟件開發(fā)時,開發(fā)者只需要設計圖標,并考慮好內容之間的分層結構關系,而光影、眼神反饋等效果則交由visionOS系統(tǒng)后臺實時處理。這既降低了開發(fā)門檻,同時也保障了不同軟件之間的體驗一致性。
視線掃過時的細膩動畫效果,圖源:蘋果
最后再來談一談Vision Pro眼動追蹤所帶來的隱私問題,這也是產品發(fā)布會上所強調的重點之一。
眼動是一項非常隱私的數據,研究表明,一個人的目光數據可能暗含用戶的性別、年齡、種族、體重、性格特征、情緒狀態(tài)、技能等各種敏感信息。
實際上,廣告心理學上也有一項名為視向心理測量的研究,即通過使用眼動儀來分析消費者注視廣告的時間、焦點、眼跳等來洞察其心理偏好。如果這些數據不加以保護,未來可能會出現更多更為準確的“猜你喜歡”廣告推送服務。(這也是Quest Pro發(fā)布時備受吐槽的一點)
Mike Rockwell透露,Vision Pro的解決方案是把眼動數據進行隔離并在后臺進行單獨處理,蘋果稱只有當用戶進行雙指捏合操作時才會釋放結果,這樣就很好規(guī)避了APP和網站獲取隱私問題。
結語
單從Vision Pro的眼動追蹤的應用這一項便不難發(fā)現,這是一款細節(jié)滿滿的產品。以“眼動+手勢+語音”確立產品核心交互范式,通過硬件以及算法讓眼動追蹤交互提升至體驗的及格線,再從人機交互、UI設計、隱私保護等方面切入使得它的體驗達到了優(yōu)秀水平。
毫無疑問Vision Pro會成為XR市場的新標桿,而它的這套交互設計或許也會成為各大廠商在未來競相學習以及追趕的對象。
參考資料
https://learn.microsoft.com/zh-cn/windows/mixed-reality/design/eye-gaze-interaction
https://developer.apple.com/videos/play/wwdc2023/10073/?time=271
投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權申明:本文為VR陀螺原創(chuàng),任何第三方未經授權不得轉載。如需轉載請聯(lián)系微信:vrtuoluo233 申請授權,并在轉載時保留轉載來源、作者以及原文鏈接信息,不得擅自更改內容,違規(guī)轉載法律必究。文中有圖片、視頻素材來自互聯(lián)網或無法核實出處,如涉及版權問題,請聯(lián)系本網站協(xié)商處理。
元宇宙數字產業(yè)服務平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息