編譯/VR陀螺
在增強現(xiàn)實平臺ARKit和ARCore推出后,谷歌于2018年將其在此之前推出的開創(chuàng)性AR平臺Project Tango(為我們提供了第一臺帶有深度傳感器的智能手機)淘汰,在之后我們逐漸看到越來越多品牌在其旗艦設備中添加深度傳感器相關的組件。
三星為其Galaxy Note 10和Galaxy S10 5G恢復了飛行時間(ToF)傳感器,盡管它已放棄了其當前型號的傳感器。谷歌也在其Pixel 4中的Project Soli對雷達進行了簡短介紹。而蘋果在其TrueDepth前置攝像頭取得突破后,為最新的旗艦系列機型iPhone 12 Pro和iPad Pro系列產(chǎn)品添加了LiDAR傳感器。
現(xiàn)在,谷歌的AI研究團隊為開發(fā)人員提供了一套工具,以充分利用這些傳感器生成的3D數(shù)據(jù)。
谷歌在近日向TensorFlow存儲庫中添加了TensorFlow 3D(TF 3D),這是一個關于3D深度學習模型的資料庫,其中包括3D語義分割、3D對象檢測和3D實例分割,可用于自動駕駛汽車和機器人,以及具有3D深度理解設備的移動AR體驗。
“計算機視覺領域最近已開始在3D場景理解方面取得良好進展,包括用于移動設備的3D對象檢測、透明對象檢測的模型,但是由于能應用3D數(shù)據(jù)的可用工具和資源有限,進入該領域可能會面臨挑戰(zhàn),”研究科學家Alireza Fathi和谷歌研究院AI研究員AI Rui Huang在官方博客中寫道。 “ TF 3D提供了一組流行的運算、損失函數(shù)、數(shù)據(jù)處理工具、模型和度量,使更廣泛的研究社區(qū)能夠開發(fā)、培訓和部署最新的3D場景理解模型。”
3D語義分割模型使應用程序能夠區(qū)分一個或多個前景對象與場景背景,例如Zoom中的虛擬背景。谷歌已為YouTube應用了具有虛擬視頻背景的類似技術。
3D對象檢測模型(左)和3D實例分割模型(右)的輸出
圖源:谷歌
相比之下,“ 3D實例分割”模型將一組對象標識為單個對象,例如Snapchat鏡頭可以將虛擬蒙版放置在相機視圖中的多個人身上。最終,“ 3D對象檢測”模型通過對視圖中的對象進行分類,使實例分割更進一步。感興趣的開發(fā)人員可在GitHub上獲得TF 3D庫。
盡管這些功能已在標準智能手機相機中得到證明,但來自LiDAR和其他飛行時間傳感器的深度數(shù)據(jù)的可用性為高級AR體驗開辟了新的可能性。
即使沒有3D儲存庫,TensorFlow也為一些不錯的AR體驗做出了貢獻。Wannaby就利用TensorFlow為其指甲油AR試色提供幫助,Capital One也利用TensorFlow來識別汽車并在AR中疊加有關汽車的信息。
近年來,谷歌還通過TensorFlow將機器學習用于其他AR用例。在2017年,該公司發(fā)布了MobileNets存儲庫,用于在Google Lens中進行圖像檢測。 TensorFlow也是其Augmented Faces API(也適用于iOS)背后的技術,該技術將類似Snapchat的自拍濾鏡引入其他移動應用程序中。
谷歌也不是第一次將深度傳感器數(shù)據(jù)用于AR體驗。雖然用于ARCore的深度API支持遮擋,但對于通過標準智能手機攝像頭實現(xiàn)的移動應用而言,使虛擬內(nèi)容出現(xiàn)在現(xiàn)實對象前后的這項技術與深度傳感器配合起來會有更好的效果。
事實證明,機器學習對于創(chuàng)建高級AR體驗是必不可少的。基于對AI研究的關注,谷歌在AR的未來中扮演著與蘋果、Facebook、Snap以及微軟一樣重要的角色。
來源:Nextreality
投稿/爆料:tougao@youxituoluo.com
稿件/商務合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息