近日,燧光(廣東虛擬現(xiàn)實科技有限公司)明星研發(fā)團隊X-Lab (aka. Ximmerse Research Lab) 的題為“DeepTag: A General Framework for Fiducial Marker Design and Detection”的研究成果被國際知名學術(shù)期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(簡稱TPAMI)接收為長篇論文。
圖源:燧光
DeepTag 是業(yè)界第一個統(tǒng)一框架支持任意類型的人工碼,跟蹤識別的精度和準度都很出色,而且得益于人工碼系統(tǒng)無源的特性,能夠快速地附著于各式各樣的應(yīng)用場景中,賦予其6-DoF姿態(tài)跟蹤的能力。這一研究成果,對賦能混合現(xiàn)實、IOT系統(tǒng)、物聯(lián)網(wǎng)平臺建設(shè)等具有重要價值。
TPAMI 是 IEEE 計算機協(xié)會主辦的期刊之一,主要收錄計算機視覺、圖像理解、模式分析和識別、機器學習等領(lǐng)域的優(yōu)秀研究成果。根據(jù)最新的JCR期刊影響因子排名, TPAMI以17.861的高影響因子, 位列計算機領(lǐng)域所有IEEE旗下期刊的首位,同時也是全球AI領(lǐng)域知名的期刊!
據(jù)了解,目前傳統(tǒng)的視覺定位技術(shù)往往對環(huán)境的紋理有一定的要求,例如紋理必須足夠豐富,否則定位就會很不準確。而人工標記碼對使用環(huán)境無特定要求,即使環(huán)境內(nèi)無任何紋理信息,也不會干擾其定位的精準度,而且只需要單張圖片就可以精確恢復(fù)出人工標記碼和拍攝相機之間的6維姿態(tài)信息(也就是經(jīng)常提到的6-DoF信息,包含3維位置信息和3維旋轉(zhuǎn)信息)。
由于人工標記碼較高的魯棒性,最早廣泛應(yīng)用于機器人定位/導航領(lǐng)域,最近幾年隨著VR/AR/MR及元宇宙概念的興起,也得到越來越多的應(yīng)用。雖然學術(shù)及工業(yè)界已經(jīng)提出很多種人工碼系統(tǒng)(見下圖1示例),但現(xiàn)有的人工碼系統(tǒng)或多或少均存在以下幾個問題:
(1) 特征點及標簽ID區(qū)分需要手工自定義。
(2) 需要特定設(shè)計很復(fù)雜的ID區(qū)分邏輯才能很好地檢測和區(qū)分不同人工碼。
(3) 受限于有限數(shù)量的特征點,基于人工碼解算出的6-DoF姿態(tài)很難達到很高的精準度。
(4) 人工碼系統(tǒng)相互彼此獨立,單個人工碼系統(tǒng)設(shè)計及檢測算法無法擴展適配用于另一種人工碼系統(tǒng)。
現(xiàn)有人工碼系統(tǒng)示例
基于上述研究背景,燧光提出 DeepTag(一種通用的人工碼系統(tǒng))(見圖2示例),不但解決了現(xiàn)有人工碼系統(tǒng)上述列舉到的這些問題外,還具有以下特點:
(1) 打破人工碼系統(tǒng)各自為戰(zhàn)的局面,首次提出了一種通用的人工碼設(shè)計及檢測框架。
(2) 支持現(xiàn)有的各種人工碼,不用重新設(shè)計即可使用該系統(tǒng),而且精準度均有大幅度提升。圖2中給出了DeepTag支持的通用人工碼樣式,所有現(xiàn)有的人工碼系統(tǒng)均在此通用樣式包含在內(nèi)。
(3) 支持人工碼設(shè)計樣式自定義,以適配不同的應(yīng)用場景。
DeepTag所支持的通用人工碼示例
得益于 DeepTag 通用的特征點定義和框架學習能力,DeepTag 在檢測識別(見下圖3示例)及定位精準度(詳見下表1)上均大幅領(lǐng)先于現(xiàn)有人工碼系統(tǒng)。
DeepTag和現(xiàn)有人工碼系統(tǒng)檢測和識別的對比。上下排分別為現(xiàn)有人工碼 和 DeepTag結(jié)果??梢钥吹?,DeepTag能夠準確識別到所有的人工碼,而現(xiàn)有的人工碼系統(tǒng)或丟失部分檢測或完全失效。
DeepTag和現(xiàn)有人工碼系統(tǒng)在定位精準度上的對比。在所有項的對比中,DeepTag獲得了最好的結(jié)果(黑色粗體加下劃線突出顯示),相比現(xiàn)有的人工碼系統(tǒng)精準度均有50%~100%的提升
燧光作為業(yè)內(nèi)的混合現(xiàn)實行業(yè)解決方案專家,已將人工碼系統(tǒng)廣泛應(yīng)用于旗下各種產(chǎn)品中,包括外部空間理解和定位、頭顯及外設(shè)的自定位、跨設(shè)備交互等方面。
燧光研究團隊負責人表示,他們將繼續(xù)探索視覺定位、物體識別、自然物體交互、多傳感器融合、場景重建、交互設(shè)計等相關(guān)領(lǐng)域的前沿技術(shù),并持續(xù)挖掘其在VR/AR/MR領(lǐng)域的應(yīng)用前景。燧光也樂于并將持續(xù)和業(yè)界以及學術(shù)界分享其最新的成果, 致力用領(lǐng)先科技推動VR/AR/MR行業(yè)快速發(fā)展,為各領(lǐng)域賦能,提升效率,創(chuàng)造價值,在空間計算時代為人機交互開啟更多可能性!
文章鏈接: https://herohuyongtao.github.io/research/publications/deep-tag/
*聲明:企業(yè)通稿非VR陀螺官方稿,法律問題一律與VR陀螺無關(guān)。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文經(jīng)原作者授權(quán)發(fā)布,不代表VR陀螺立場,如需轉(zhuǎn)載請直接聯(lián)系原作者
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息