編譯/VR陀螺
在增強(qiáng)現(xiàn)實平臺ARKit和ARCore推出后,谷歌于2018年將其在此之前推出的開創(chuàng)性AR平臺Project Tango(為我們提供了第一臺帶有深度傳感器的智能手機(jī))淘汰,在之后我們逐漸看到越來越多品牌在其旗艦設(shè)備中添加深度傳感器相關(guān)的組件。
三星為其Galaxy Note 10和Galaxy S10 5G恢復(fù)了飛行時間(ToF)傳感器,盡管它已放棄了其當(dāng)前型號的傳感器。谷歌也在其Pixel 4中的Project Soli對雷達(dá)進(jìn)行了簡短介紹。而蘋果在其TrueDepth前置攝像頭取得突破后,為最新的旗艦系列機(jī)型iPhone 12 Pro和iPad Pro系列產(chǎn)品添加了LiDAR傳感器。
現(xiàn)在,谷歌的AI研究團(tuán)隊為開發(fā)人員提供了一套工具,以充分利用這些傳感器生成的3D數(shù)據(jù)。
谷歌在近日向TensorFlow存儲庫中添加了TensorFlow 3D(TF 3D),這是一個關(guān)于3D深度學(xué)習(xí)模型的資料庫,其中包括3D語義分割、3D對象檢測和3D實例分割,可用于自動駕駛汽車和機(jī)器人,以及具有3D深度理解設(shè)備的移動AR體驗。
“計算機(jī)視覺領(lǐng)域最近已開始在3D場景理解方面取得良好進(jìn)展,包括用于移動設(shè)備的3D對象檢測、透明對象檢測的模型,但是由于能應(yīng)用3D數(shù)據(jù)的可用工具和資源有限,進(jìn)入該領(lǐng)域可能會面臨挑戰(zhàn),”研究科學(xué)家Alireza Fathi和谷歌研究院AI研究員AI Rui Huang在官方博客中寫道。 “ TF 3D提供了一組流行的運(yùn)算、損失函數(shù)、數(shù)據(jù)處理工具、模型和度量,使更廣泛的研究社區(qū)能夠開發(fā)、培訓(xùn)和部署最新的3D場景理解模型。”
3D語義分割模型使應(yīng)用程序能夠區(qū)分一個或多個前景對象與場景背景,例如Zoom中的虛擬背景。谷歌已為YouTube應(yīng)用了具有虛擬視頻背景的類似技術(shù)。
3D對象檢測模型(左)和3D實例分割模型(右)的輸出
圖源:谷歌
相比之下,“ 3D實例分割”模型將一組對象標(biāo)識為單個對象,例如Snapchat鏡頭可以將虛擬蒙版放置在相機(jī)視圖中的多個人身上。最終,“ 3D對象檢測”模型通過對視圖中的對象進(jìn)行分類,使實例分割更進(jìn)一步。感興趣的開發(fā)人員可在GitHub上獲得TF 3D庫。
盡管這些功能已在標(biāo)準(zhǔn)智能手機(jī)相機(jī)中得到證明,但來自LiDAR和其他飛行時間傳感器的深度數(shù)據(jù)的可用性為高級AR體驗開辟了新的可能性。
即使沒有3D儲存庫,TensorFlow也為一些不錯的AR體驗做出了貢獻(xiàn)。Wannaby就利用TensorFlow為其指甲油AR試色提供幫助,Capital One也利用TensorFlow來識別汽車并在AR中疊加有關(guān)汽車的信息。
近年來,谷歌還通過TensorFlow將機(jī)器學(xué)習(xí)用于其他AR用例。在2017年,該公司發(fā)布了MobileNets存儲庫,用于在Google Lens中進(jìn)行圖像檢測。 TensorFlow也是其Augmented Faces API(也適用于iOS)背后的技術(shù),該技術(shù)將類似Snapchat的自拍濾鏡引入其他移動應(yīng)用程序中。
谷歌也不是第一次將深度傳感器數(shù)據(jù)用于AR體驗。雖然用于ARCore的深度API支持遮擋,但對于通過標(biāo)準(zhǔn)智能手機(jī)攝像頭實現(xiàn)的移動應(yīng)用而言,使虛擬內(nèi)容出現(xiàn)在現(xiàn)實對象前后的這項技術(shù)與深度傳感器配合起來會有更好的效果。
事實證明,機(jī)器學(xué)習(xí)對于創(chuàng)建高級AR體驗是必不可少的。基于對AI研究的關(guān)注,谷歌在AR的未來中扮演著與蘋果、Facebook、Snap以及微軟一樣重要的角色。
來源:Nextreality
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息