文/VR陀螺
XR行業(yè),十年一征程。
2014年,F(xiàn)acebook收購Oculus,后更名Meta "All in 元宇宙”;2021年,字節(jié)跳動收購PICO,揭開國內(nèi)VR領(lǐng)域的新篇章;2024年,蘋果攜Vision Pro入局,引領(lǐng)業(yè)界邁入空間計(jì)算時(shí)代……
回顧過去的十年,從一開始單純的VR、AR,到后來出現(xiàn)MR、XR,再到如今與AI相結(jié)合以及空間計(jì)算概念出現(xiàn),XR始終在不斷向前發(fā)展中,其應(yīng)用領(lǐng)域也從游戲到教育辦公、工業(yè)制造、醫(yī)療健康等,不斷革新各垂直領(lǐng)域的智能交互體驗(yàn),成為21世紀(jì)的新質(zhì)生產(chǎn)力。
經(jīng)歷了上一個(gè)十年的企業(yè)家們,有何經(jīng)營之道?而面向未來十年,XR又將如何前行?
基于此,VR陀螺推出了以“XR 十年沉浮錄”為主題系列線上直播訪談活動,4月9日,VR陀螺 主編兼總經(jīng)理 案山子連線對話谷東科技 創(chuàng)始人兼CEO 崔海濤,雙方就“大模型浪潮下工業(yè)AR+AI的實(shí)踐與挑戰(zhàn)”進(jìn)行了深入探討。
以下是對話實(shí)錄:
案山子:今天我們直播間有幸請到谷東科技的創(chuàng)始人兼CEO崔海濤,崔總在這個(gè)行業(yè)里面其實(shí)已經(jīng)扎根多年,并且谷東科技前幾天剛發(fā)了一款工業(yè)AR智能頭盔新品H4000。這里首先有請崔總做一個(gè)簡單的自我介紹。
崔海濤:我先來介紹一下谷東科技,我們公司在2017年底成立,從一開始便專注于AR顯示、算法和硬件方面的技術(shù)研發(fā)。我們在B端落地方面其實(shí)也經(jīng)歷了很多困難,踩了不少坑,不過一路走來整體還算不錯(cuò),很多國內(nèi)外的一些頭部企業(yè)都是谷東科技的客戶。
現(xiàn)如今,我們已經(jīng)把AR真正應(yīng)用在了生產(chǎn)、制造、檢修、售后、培訓(xùn)等諸多領(lǐng)域。可能對于一些直播間的觀眾來說,由于我們從事的是B端,跟大家直接面對面接觸的機(jī)會比較少,不少人仍然會認(rèn)為AR僅僅用于展示、培訓(xùn)等簡單場景,然后我今天也希望借助這次對話機(jī)會,給大家介紹谷東科技在企業(yè)端的各種實(shí)踐經(jīng)驗(yàn)以及一些心得體會。
谷東科技H4000新品發(fā)布會(圖源:谷東科技)
案山子:如果我們回看VR/AR這十年,你會發(fā)現(xiàn)整個(gè)產(chǎn)業(yè)其實(shí)一直在起起伏伏,有很多老公司退了出去,也有很多新的公司進(jìn)來。在這樣一個(gè)環(huán)境里面,當(dāng)您回顧您這段創(chuàng)業(yè)經(jīng)歷,甚至說有機(jī)會回到上一個(gè)時(shí)間節(jié)點(diǎn),您還會選擇這個(gè)賽道并堅(jiān)定投入進(jìn)來嗎?
崔海濤:從現(xiàn)在來看,下場AR創(chuàng)業(yè)其實(shí)屬于有點(diǎn)沖動的,因?yàn)槲覀冊谶M(jìn)來這大幾年時(shí)間里,踩了非常多的坑,也經(jīng)歷了非常多的行業(yè)困境,里面的難度其實(shí)遠(yuǎn)超我最初的想象。即便從當(dāng)前的時(shí)間節(jié)點(diǎn)來看,AR/VR依然沒有那么容易做,里面還有很多諸如技術(shù)挑戰(zhàn)、應(yīng)用場景挑戰(zhàn)等,非??简?yàn)創(chuàng)業(yè)者以及團(tuán)隊(duì)的綜合能力以及韌性。我覺得當(dāng)初如果沒有一定的心理準(zhǔn)備和創(chuàng)業(yè)韌性,以及對業(yè)務(wù)對心理的建設(shè)能力,其實(shí)是挺難挺過去的。
案山子:面對當(dāng)前情形,如果現(xiàn)在有人想進(jìn)來創(chuàng)業(yè)做AI或AR終端的話,這個(gè)時(shí)間點(diǎn)你會鼓勵他進(jìn)來嗎?
崔海濤:我覺得永遠(yuǎn)有高人在,以后可能確實(shí)會有一些比我們從業(yè)能力更強(qiáng)、資源更強(qiáng)的準(zhǔn)備入局VR/AR的創(chuàng)業(yè)者,所以很難一概而論。不過從我們對行業(yè)的觀察來看,我們看到了很多的企業(yè)生與死,我感覺VR/AR創(chuàng)業(yè)難度其實(shí)比一般的創(chuàng)業(yè)要相對更難,因?yàn)樗纳虡I(yè)模式以及技術(shù)特別難掌握。
并且在這個(gè)階段,行業(yè)也并非一個(gè)約定俗成的東西,需要自己去把握和探索,可能你踩錯(cuò)一步就會萬劫不復(fù)。如果有創(chuàng)業(yè)者想要進(jìn)來,我覺得還是可以的,但是需要選擇一個(gè)自己非常確信的、看得明朗的點(diǎn),你們也知道AR/ VR行業(yè)不乏障眼法,它并不像外面的人看起來那么美好。
谷東科技工業(yè)AR智能頭盔H4000(圖源:網(wǎng)絡(luò))
案山子:崔總在創(chuàng)辦谷東科技之前曾做了一個(gè)叫VR/AR看冬奧的項(xiàng)目,我相信這也是促使您創(chuàng)業(yè)的一個(gè)契機(jī)。為什么當(dāng)時(shí)會從AR的角度切入創(chuàng)業(yè),而不是VR呢?當(dāng)然從現(xiàn)在來看,增強(qiáng)現(xiàn)實(shí)不止AR這一條路徑,基于VST的VR也有一些比較不錯(cuò)的效果了,我想了解一下在VR/AR賽道的選擇上你都有哪些初衷或者考量點(diǎn)?
崔海濤:當(dāng)年的VR其實(shí)連VST概念都很少被人提及,透視技術(shù)也遠(yuǎn)沒有今天這么成熟。對我個(gè)人而言,我是有點(diǎn)幽閉恐懼癥的,在VR這種全封閉的環(huán)境中,我會感覺非常不舒服。另外VR的體積重量也比AR夸張得多,佩戴這么大、這么重的VR對我來講是一種絕對的負(fù)擔(dān),沒有享受。
因而哪怕VR能力更強(qiáng),我也寧愿選擇一個(gè)比較輕便的AR,所以創(chuàng)業(yè)之初就沒考慮過做VR。如果有關(guān)注谷東科技的就會發(fā)現(xiàn),我們創(chuàng)業(yè)之初就跟現(xiàn)在大多數(shù)剛進(jìn)來的創(chuàng)業(yè)者一樣,一開始做的也是符合我們?nèi)粘E宕髁?xí)慣的眼鏡類產(chǎn)品。
當(dāng)然,現(xiàn)在Vision Pro出來以后,很多人會發(fā)現(xiàn)它的透視效果其實(shí)做得也已經(jīng)十分不錯(cuò)了, VR和AR的界限越來越模糊,也就是大家都走到了MR這么一個(gè)十字路口。VR/AR相較于以前也不是那么涇渭分明了,所以我覺得既然大家都能走得通,后續(xù)做產(chǎn)品更多地可以針對不同人群、場景和資源去考量。
谷東科技早期產(chǎn)品(圖源:網(wǎng)絡(luò))
案山子:前面提到Vision Pro,很多人也感受到了VST其實(shí)也能做AR方面的一些事情,那么蘋果Vision Pro出來后對谷東科技的業(yè)務(wù)有沖擊嗎?另外你又是如何看待未來VST跟OST的發(fā)展的?
崔海濤:其實(shí)沖擊基本不存在。我們谷東科技是一家專注于服務(wù)ToB市場的AR+AI技術(shù)公司,像蘋果Vision Pro這樣一類VST產(chǎn)品,它基于攝像頭觀察,大家對它的不信任感還是會有的,而且從目前的法律法規(guī)來看也不允許這么做,B端場景還是要求用裸眼對周邊環(huán)境進(jìn)行判斷,需要人保持這種感知,所以當(dāng)前階段基于攝像頭取代我們的感官其實(shí)是不可行的。
另外Vision Pro的VST是不是已經(jīng)盡善盡美了呢?其實(shí)也沒有。它在一些暗光、低光的環(huán)境下效果會大打折扣,在這種情況下更不能用它來參與甚至替代工業(yè)場景里面的一些作業(yè)行為了。
所以我覺得VST對我們倒沒有什么沖擊,但是對于行業(yè)創(chuàng)業(yè)者來講,這不失為一種產(chǎn)品思路,可能有些消費(fèi)端的用戶他就希望有時(shí)候能夠獲得完全沉浸式的體驗(yàn),有時(shí)候又可以戴出去吃個(gè)火鍋、包個(gè)餃子,那VST也不失為一種可以接受的方式,如果它的體驗(yàn)足夠好,也是有很多消費(fèi)者可以接受的。也就是說在使用場景方面,如果環(huán)境不是十分苛刻,我覺得無論是VST或者OST,都是可以的,實(shí)際上它們已經(jīng)在很多場景上出現(xiàn)了重疊,比如娛樂、教學(xué)、培訓(xùn)等。
當(dāng)然考慮到Vision Pro這類VST產(chǎn)品,它的重量跟佩戴對很多人來說還是難以接受的,背后我們不能忽略當(dāng)前的供應(yīng)鏈以及技術(shù)水平。最理想的情況當(dāng)然是用10克左右的glasses實(shí)現(xiàn)各種復(fù)雜的功能和空間計(jì)算,但是它現(xiàn)在還太遠(yuǎn),只是看如何取舍。
Vision Pro(圖源:VR陀螺)
案山子:谷東科技選擇的是AR路線, 我們都知道AR里面涉及到的光學(xué)非常多,比如之前的棱鏡,到現(xiàn)在的Birdbath、自由曲面,以及衍射波導(dǎo)、陣列波導(dǎo)、體全息波導(dǎo)等,光學(xué)方案一直在不斷地推陳出新,您在定義產(chǎn)品,或者說考量產(chǎn)品跟場景之間關(guān)聯(lián)的時(shí)候,會怎么去選擇它的光學(xué)方案?您對于不同的光學(xué)都有哪些看法?
崔海濤:我在一兩年以前還會認(rèn)為,很多AR光學(xué)方案都可以用,在前期我們也嘗試過開發(fā)不同的產(chǎn)品,它們配有不同的光學(xué)。但到了現(xiàn)如今,我覺得AR光學(xué)的方向已經(jīng)越來越清晰了,現(xiàn)在好像就只剩光波導(dǎo)可以選了,特別是當(dāng)你拿光波導(dǎo)對比其他AR光學(xué)方案的時(shí)候,你就會知道它不愧是顯示之王,它的各種優(yōu)勢是別的方案沒辦法去比較的。
以前我還認(rèn)為觀影用Birdbath、自由曲面還挺好的,但是真正看到光波導(dǎo)的發(fā)展以及進(jìn)展的時(shí)候,會明顯感覺后者使用起來更舒服。當(dāng)然谷東科技也在從事光波導(dǎo)方面的技術(shù)研究和開發(fā),這并不是我為自己打廣告,實(shí)際上光波導(dǎo)很多優(yōu)勢你是沒辦法忽視的,比如超輕薄、看外界環(huán)境沒有畸變、眼盒可以做到很大、造型對于佩戴非常友好、教育成本很低等。
隨著光波導(dǎo)技術(shù)優(yōu)化迭代,它的色彩、顯示以及空間交互會進(jìn)一步提升,你會感覺它跟真實(shí)世界的融入感更強(qiáng),甚至?xí)屓送涀约捍髁诉@么一副眼鏡。所以我覺得即便大家現(xiàn)在還在糾結(jié),幾年過后,我相信很多人最終還是會領(lǐng)悟過來:光波導(dǎo)才是終局。
案山子:這背后是不是因?yàn)楣獠▽?dǎo)在近幾年出現(xiàn)了特別大的進(jìn)展以及技術(shù)突破,從而讓你改變了自己的想法?還是說有什么其他原因打動了您?
崔海濤:這背后跟客戶的意見和反饋有關(guān)。我們作為從業(yè)者可能會一葉障目,我們的意見不一定是對的,不過我們也做過很多調(diào)研,拿過不同的光學(xué)產(chǎn)品去拜訪我們的客戶,讓我比較震驚的地方在于,當(dāng)他們看到光波導(dǎo)以后,就再也不會去看別的光學(xué)顯示方案了。
當(dāng)然,最近我們在光波導(dǎo)顯示技術(shù)方面也取得了很大的進(jìn)展,比如在亮度、顏色的飽和度對比度、眼盒、出瞳距等指標(biāo)上有了提升,原來光波導(dǎo)的很多固有問題也開始得到了改善,除了谷東科技以外,我們的同行們在光波導(dǎo)方面也取得了很多突破,整個(gè)行業(yè)都在進(jìn)步,所以我覺得現(xiàn)在光波導(dǎo)已經(jīng)沒有什么可猶豫的了。
谷東科技在光博會展示光波導(dǎo)模組(圖源:網(wǎng)絡(luò))
案山子:經(jīng)過這么多年下來,你覺得B端客戶對于AR類產(chǎn)品,它們的想法有沒有轉(zhuǎn)變?當(dāng)然我們也知道B端其實(shí)是一個(gè)比較難推的領(lǐng)域,你覺得現(xiàn)在的市場滲透率又達(dá)到了什么樣的一個(gè)水平?
崔海濤:首先從認(rèn)知和市場教育來講,B端客戶相較于前幾年確實(shí)有了很大的提升。現(xiàn)在很多客戶都知道AR、VR的區(qū)別了,而不會像前幾年一樣還傻傻分不清。再者他們對于AR的一般功能以及作用已經(jīng)具備大概認(rèn)知,比如會考量這個(gè)產(chǎn)品戴起來舒不舒服、屏幕看起來清不清楚等。
但是在更細(xì)化的方面,比如如何用AR結(jié)合自己的行業(yè),如何將AR真正落地到生產(chǎn)實(shí)踐當(dāng)中,一些制造方面的困難如何借助AR解決,AR能解決到什么程度等,這些他們還沒有概念。這些東西光靠講其實(shí)很難打動客戶,后面還是需要真正給他們做展示。特別是現(xiàn)如今AR結(jié)合AI以后,它確實(shí)比手機(jī)、Pad或者其他的手持終端要具備更高效率。所以我們在很多客戶那里其實(shí)是起到一個(gè)布道者的角色,先做市場教育,然后才有后面客戶的認(rèn)知和連續(xù)購買。
案山子:結(jié)合過往來看,在說服或者教育客戶的過程中哪些地方會具有比較大的阻力?
崔海濤:我覺得客戶的耐心是比較大的阻力。很多時(shí)候AR需要在特殊的場景下才能體現(xiàn)出它的價(jià)值,可能一些客戶它剛開始的時(shí)候不會使用,或者說沒有完全理解,并且在原有觀念中認(rèn)為AR只能用于簡單的掃碼、識別零件或缺陷等。如果客戶真的試圖將AR融入到工作流當(dāng)中,其實(shí)很容易就會看到它由量變到質(zhì)變,從單一步驟的提效再到整個(gè)工作效率的提升,不過有很多客戶在這個(gè)過程中淺嘗輒止,十分可惜。
當(dāng)然我們也不會輕易放棄,當(dāng)我們有新的idea或方案,我們也會隨時(shí)給客戶展示??赡艿谝淮嗡杏X這只是一個(gè)小進(jìn)步,但第二次再看的時(shí)候,客戶就會覺得提升十分大。所以這里面比較核心的還是客戶的耐心問題,當(dāng)然這背后也需要我們行業(yè)從業(yè)者用耐心去澆灌客戶。
谷東科技C2000(圖源:網(wǎng)絡(luò))
案山子:關(guān)于產(chǎn)品,我們會發(fā)現(xiàn)B端視角跟C端視角是完全不一樣的。比如說我們C端用戶去買眼鏡,他心中會有自己的一個(gè)排序,比如希望有好的顯示效果,價(jià)格也要比較低等等。對B端客戶來說,他們對于產(chǎn)品更側(cè)重于哪些地方?
崔海濤:B端產(chǎn)品跟消費(fèi)端確實(shí)有很大的差異,對于客戶而言,我覺得他們首要關(guān)注的是場景的適應(yīng)性或者說人機(jī)交互佩戴體驗(yàn)。因?yàn)楣ぷ鞲稍谏嘲l(fā)追劇是不一樣的,B端AR產(chǎn)品要用于真刀實(shí)槍地干活,不能耽誤他的工作,同時(shí)也不要影響他的安全。
而且對于B端用戶來說,產(chǎn)品一戴就是一上午甚至一整天,所以人體工學(xué)肯定是需要排在第一位的。還有對于一些諸如消防等特種行業(yè)來說,佩戴的可靠性也非常重要。比如用戶戴著一副眼鏡,時(shí)不時(shí)還要提防它往下掉,時(shí)刻得用手扶著,這種產(chǎn)品也是嚴(yán)重不及格的。
第二點(diǎn),客戶對于顯示也是蠻挑剔的,我發(fā)現(xiàn)這里有一個(gè)很有意思的事情,剛接觸客戶的時(shí)候,你跟他講再多的流程、功能其實(shí)都沒有一個(gè)好的顯示效果有用。你把產(chǎn)品拿給他們看,他們可能會覺得光波導(dǎo)這么一個(gè)透明的屏幕,里面還能顯示內(nèi)容,并且顯示的效果也十分不錯(cuò),他就會感覺這個(gè)產(chǎn)品很不錯(cuò)。當(dāng)然,因?yàn)锳R或者M(jìn)R、XR,它們本質(zhì)都是新一代顯示技術(shù),所以顯示這一塊對客戶來講是非常重要的。為什么傳統(tǒng)的棱鏡技術(shù)已經(jīng)消失掉了,就是客戶普遍覺得它顯示不夠好。
第三點(diǎn),我覺得是AR攝像頭的能力。攝像頭是一個(gè)感知系統(tǒng),它直接決定設(shè)備捕捉到的畫面細(xì)節(jié)是否足夠清晰以及能否用于后續(xù)的分析等工作流程,這些東西也是客戶比較在意的。當(dāng)然我們谷東科技最近發(fā)布的工業(yè)AR智能頭盔H4000也非常重視攝像頭能力,H4000用了4800萬像素?cái)z像頭,支持工業(yè)級防抖以及外接變焦鏡頭等,我們在這基礎(chǔ)之上還開發(fā)了圖像增強(qiáng)算法,這些都是為了更好滿足客戶的使用需求。
再后面,客戶可能看重的還有電池續(xù)航、發(fā)熱,是否經(jīng)過各種專業(yè)認(rèn)證以及防爆、防塵、防水等安全認(rèn)證等??傮w來看,B端的產(chǎn)品相對C端要更復(fù)雜一些。
觀眾提問:對于C端行業(yè)來說,有沒有值得分享的經(jīng)驗(yàn)?
崔海濤:老實(shí)講,我們對于C端不是特別專業(yè),我們也不直接面向C端用戶。不過從最基本的角度出發(fā),AR眼鏡是給人戴的,所以還是要以用戶的感受作為出發(fā)點(diǎn),要有一個(gè)同理心,如果你把產(chǎn)品做出來自己都不想用,我覺得最好也不要強(qiáng)加給用戶,畢竟己所不欲勿施于人。我本身也買了不少C端的AR眼鏡產(chǎn)品,雖然不方便直接評論產(chǎn)品好壞,我覺得它們有一部分做的還不錯(cuò),不過也有一部分確實(shí)體驗(yàn)沒那么好。
谷東科技工業(yè)AR新品H4000(圖源:網(wǎng)絡(luò))
案山子:前面你有提到用戶對于用AR取代Pad的需求,你覺得AR相對于Pad等傳統(tǒng)屏幕,它的提升在哪里?
崔海濤:早些時(shí)候,我們很多工作都需要依賴紙和筆,比如物業(yè)、巡檢等場景要用紙和筆簽到、打卡,甚至連飛機(jī)檢測等比較高端的地方還會用紙和筆記錄,現(xiàn)在還有很多地方能看到紙和筆的身影。本來這些場景是沒有屏幕的,不過屏幕出現(xiàn)后能給他們的工作增加很多便利性并提升效率。
現(xiàn)在用Pad、用手機(jī)等場景已經(jīng)十分常見了,不過由于需要用手拿著,在某些時(shí)候還是非常不方便,比如說物流場景,工人搬完箱子以后緊接著要掏出Pad或手機(jī)掃碼,這個(gè)效率顯然是比較低的,所以這些工作場景下用AR取代Pad來解放雙手就顯得更有必要。另外,我們考慮到現(xiàn)如今AI深入人心,AR+AI深度融合,就像是隨身佩戴了一個(gè)隨時(shí)待命的助手,這對于一線人員后續(xù)的工作也將帶來巨大的價(jià)值。
案山子:能否簡單介紹AR已經(jīng)落地的場景?
崔海濤:谷東科技發(fā)展至今,在這方面其實(shí)已經(jīng)積累了大量的實(shí)踐和案例。我們發(fā)現(xiàn)AR可落地的地方實(shí)在是太多了。舉例而言,售后和故障排除這樣的場景是最容易理解的,因?yàn)檫@個(gè)場景用戶需要全身心投入搶修,專家要遠(yuǎn)程指導(dǎo)工人安裝設(shè)備等,這時(shí)如果還要翻手機(jī)或Pad看手冊或說明其實(shí)并不實(shí)際,而AR卻可以很好解決這一類問題。
隨著現(xiàn)如今CV技術(shù)的成熟,AR眼鏡也可以參與到檢查巡檢等流程中,具有一定的指導(dǎo)和糾錯(cuò)能力,相當(dāng)于擁有了一個(gè)實(shí)時(shí)的專家或者監(jiān)督者,另外在一些復(fù)雜的裝配環(huán)節(jié),比如飛機(jī)整裝車間,AR眼鏡也可以用于輔助識別這種復(fù)雜的零件,提供安裝順序指導(dǎo)等。
AR+AI在航空領(lǐng)域落地(圖源:谷東科技)
另外像一些企業(yè)的倉儲物流環(huán)節(jié),很多企業(yè)考慮到成本的因素不會像專門的物流企業(yè)一樣那么激進(jìn)用上全自動化,那么AR眼鏡在這個(gè)場景的價(jià)值就體現(xiàn)出來了,比如前面提到工人搬貨場景中,他們需要把東西提起、放下,騰出雙手找Pad掃碼,拍攝完還要錄入,這起碼需要經(jīng)歷四個(gè)步驟,而AR眼鏡介入后,工人拿起箱子,眼鏡自動掃描、語音錄入后就可以出貨了,步驟明顯少了很多,所以在這個(gè)場景下AR對工作效率的提升也是非常明顯的。
再比如海關(guān)等涉及檢查的場景,引入AR后可以解決自動檢索和數(shù)據(jù)孤島問題,早些時(shí)候檢查一個(gè)貨物,可能要專門去找報(bào)關(guān)單、企業(yè)商標(biāo)、價(jià)格等方面的資料,這些信息都需要去檢索然后人為加工出來,現(xiàn)在借助我們谷東科技的AR+AI大模型技術(shù)可以對貨物進(jìn)行一個(gè)全方位的檢查,確保符合相應(yīng)的標(biāo)準(zhǔn),這種場景下效率也有很明顯的提升。
案山子:我們之前其實(shí)也跟蠻多這種做B端的企業(yè)聊過,一些客戶購買AR眼鏡可能更多只是起到展示作用,但是真正投入到實(shí)際生產(chǎn)中會少一些。你覺得現(xiàn)在還會有這種情況嗎?
崔海濤:我覺得現(xiàn)在基本不會有這種情況了,因?yàn)榇蠹覍R的認(rèn)知已經(jīng)過了初期好奇、獵奇的階段,現(xiàn)在核心是講究時(shí)效,我們很多項(xiàng)目都是以提升客戶效率為目標(biāo)?,F(xiàn)如今客戶對于每一分錢都算得十分清楚:你能把我生產(chǎn)效率、分揀效率或者查驗(yàn)效率提升多少?時(shí)間能壓縮到什么水平?流程的優(yōu)化以及智能的算法又能做到什么程度?甚至面對一些激進(jìn)的客戶,我們還需要簽署相應(yīng)的效率保證書。
AR在制造場景(圖源:網(wǎng)絡(luò))
案山子:咱們今天的主題是大模型浪潮下的工業(yè)AR+AI實(shí)踐與挑戰(zhàn),這里也想跟崔總聊一聊AI相關(guān)的東西,谷東科技這邊也在做AI相關(guān)的布局,所以想問一下,從當(dāng)前來看,AR+AI都有哪些容易讓用戶感知到的或者能明顯發(fā)揮價(jià)值的場景?
崔海濤:說到AI,可能現(xiàn)在最火的還是ChatGPT,它推出來已經(jīng)有很長一段時(shí)間了,不過我不知道大家現(xiàn)在還會不會經(jīng)常用??赡軇偝鰜淼臅r(shí)候大家都體驗(yàn)了,覺得AI能幫我寫一些東西,或者跟它聊天覺得挺有意思,但是這個(gè)新鮮勁一過,大家持續(xù)使用的意愿就變?nèi)趿恕?/p>
我覺得,想要讓AI更好地融入到你的生活和工作里,AR才是絕配。以手機(jī)體驗(yàn)來看,你要經(jīng)歷解鎖、輸入對話框,用手拿著等操作,所以用戶會覺得麻煩,人一旦覺得麻煩就不會經(jīng)常去用,AR這種載體會好得多。
圖源:谷東科技
那我們?nèi)绾螌I引入B端的作業(yè)呢?比較典型的是基于深度學(xué)習(xí)、CV去輔助產(chǎn)線工人識別零部件,檢查缺陷等。在這個(gè)過程中,AI還能通過調(diào)用知識庫基于過往經(jīng)驗(yàn)給工人推薦相應(yīng)的解決方案,即便在一些相對彈性、動態(tài)的場景也十分實(shí)用,它能降低決策成本,甚至某方面來看,AI的決策效率會比真人更高。
另外有一些工廠,它出于保密等原因嚴(yán)禁工人將手機(jī)帶進(jìn)工廠,很多時(shí)候工人查找資料需要跑到專門的計(jì)算機(jī)房,這也會浪費(fèi)大量的時(shí)間。而AR作為一個(gè)先進(jìn)的生產(chǎn)工具,它可以幫我們解決這種快速檢索查詢等問題。AI出現(xiàn)后,你可以用語音直接跟它對話交流,由于它具備較強(qiáng)的語義理解和歸納能力,用戶在查詢的時(shí)候不再需要輸入固定的查詢語句或者格式,所以對于檢索數(shù)據(jù)等場景,AI也是非常有用的。
當(dāng)然AI在智能眼鏡上所發(fā)揮的作用遠(yuǎn)不止這么多,我們發(fā)現(xiàn)部分一線生產(chǎn)人員用了AR+AI以后,他會對這種東西有所依賴,因?yàn)锳R設(shè)備對于一些弱光或者遠(yuǎn)距離識別效果甚至?xí)哂谌搜郏O(shè)備所識別到的條形碼等信息又能直接顯示在屏幕之上,相比手機(jī)確實(shí)會好很多。
在大模型布局方面,谷東科技在AI算力、算法以及數(shù)據(jù)層面均有相應(yīng)布局,我們正在構(gòu)建AR+AI大模型的場景落地以及算力聯(lián)盟,前者配備了包含Llama 2、StableLM在內(nèi)的近百種成熟AI算法,可以為客戶提供針對性的AI解決方案。算力聯(lián)盟則是谷東科技計(jì)劃聯(lián)合其他廠商推出的算力綜合服務(wù),目前已經(jīng)積累了包含英偉達(dá)、華為體系在內(nèi)的一些算力資源。
在大模型前沿基礎(chǔ)研發(fā)方面,我們不僅在大模型應(yīng)用研發(fā)層面為解決客戶難題而探索和奮斗,也在為大模型前沿基礎(chǔ)研究的發(fā)展做貢獻(xiàn)。我們研究的主要方向包括模型架構(gòu)的突破、大模型的輕量化、針對小樣本更高效的指令微調(diào)方法以及圖文多模態(tài)大模型。
大量實(shí)踐下來,我們發(fā)現(xiàn),算法創(chuàng)新的研發(fā)投入、算法的工程實(shí)現(xiàn)以及如何調(diào)整算法讓它更有效地工作是當(dāng)前大模型領(lǐng)域的主要難點(diǎn)。同時(shí),要研發(fā)一個(gè)好的行業(yè)大模型,需要大量的行業(yè)專業(yè)數(shù)據(jù)積累,谷東科技跟B端各垂直領(lǐng)域客戶的大量接觸與合作獲得了很多行業(yè)場景的一手真實(shí)數(shù)據(jù),這是我們布局AR+AI大模型應(yīng)用的優(yōu)勢之一。例如,針對大模型推理能力強(qiáng)計(jì)算能力弱的問題,谷東科技研究在大模型的下游引入專業(yè)領(lǐng)域的數(shù)據(jù)統(tǒng)計(jì)和計(jì)算模塊,像是趨勢預(yù)測、排產(chǎn)排班等,對企業(yè)不斷生成的數(shù)據(jù),通過引入持續(xù)學(xué)習(xí)和遺忘管理機(jī)制,定時(shí)在本地進(jìn)行大模型的持續(xù)微調(diào)。
通過布局大模型技術(shù)研發(fā)及應(yīng)用,我們希望能夠?yàn)楣I(yè)/企業(yè)提供更全面智能的AI解決方案,幫助他們提高決策效率和準(zhǔn)確性、優(yōu)化操作流程減少成本、開展自動化生產(chǎn)和機(jī)器人應(yīng)用等。目前,谷東科技AR+AI大模型已率先在航空、石油、煙草等行業(yè)落地應(yīng)用,解決了客戶某些場景下操作說明檢索和計(jì)劃自動變更等問題。
AR應(yīng)用于智慧電力(圖源:谷東科技)
案山子:前面提到的很多AI場景訓(xùn)練,其實(shí)都需要依賴于數(shù)據(jù)庫,那么對于客戶來說,是否會擔(dān)心數(shù)據(jù)訓(xùn)練過程中產(chǎn)生的隱私和幻覺等問題?
崔海濤:數(shù)據(jù)安全性問題其實(shí)也是我們要幫客戶考慮的首要問題之一,如果客戶對于數(shù)據(jù)的安全性有很高的要求,我們會以私有化的方式去部署。
其次,我們面對的客戶其實(shí)都是各種垂直行業(yè)的,我們訓(xùn)練的其實(shí)也叫做垂直行業(yè)小模型,我們不會用那種模棱兩可,或者會導(dǎo)致AI胡言亂語的數(shù)據(jù)去訓(xùn)練客戶的大模型,我們會基于大模型的思想以及一些核心算法邏輯,再運(yùn)用一些行業(yè)實(shí)踐中真實(shí)產(chǎn)生的數(shù)據(jù)去訓(xùn)練。其實(shí)我們很多客戶它原先就已經(jīng)采集了很多圖像、報(bào)表之類的數(shù)據(jù),只是先前沒有進(jìn)行系統(tǒng)利用,而大模型的誕生剛好可以把這些數(shù)據(jù)綜合利用起來。
第三,對于輸出結(jié)果的確定性,我們谷東科技在這方面也做了一些技術(shù)研究,我們在大模型的基本框架基礎(chǔ)上加入了一些檢索增強(qiáng)的算法,我們會把確定的規(guī)章制度或者需要嚴(yán)格遵守的行業(yè)規(guī)定作為優(yōu)先項(xiàng),先讓AI檢索這里面的內(nèi)容。如果沒有硬性要求,或者說依賴于老經(jīng)驗(yàn),決策所依賴的是工作中約定俗成的東西,沒有特定的標(biāo)準(zhǔn)或者物理定律,那么我們AI會通過學(xué)習(xí)和吸收過往經(jīng)驗(yàn),再給新手輸出相應(yīng)的建議,這就相當(dāng)于新手直接獲得了與老員工一樣的經(jīng)驗(yàn),這也會提升工作流程的安全性和效率。
例如,我們借鑒RAG技術(shù),使用客戶提供的資料先在文檔中根據(jù)提示詞做相似向量檢索歸類,再生成提示指令,對預(yù)訓(xùn)練的語言大模型進(jìn)行指令微調(diào)。這里我們完成的訓(xùn)練都是在私域進(jìn)行的,涉及的研發(fā)工作主要是對算法進(jìn)行調(diào)整讓它更有效的工作以及算法的工程實(shí)現(xiàn),包括文字向量化方法、語言向量相似度搜索以及如何生成有效的提示等。在保證客戶數(shù)據(jù)安全的前提下,解決了通用大模型對專業(yè)領(lǐng)域知識的局限性以及由于專業(yè)知識不足產(chǎn)生的幻覺問題。
AR在能源領(lǐng)域(圖源:谷東科技)
案山子:標(biāo)準(zhǔn)化一直是B端的一個(gè)難點(diǎn),因?yàn)槔锩嫔婕傲撕芏囗?xiàng)目,需要跟不同的行業(yè)打交道,把項(xiàng)目變成產(chǎn)品其實(shí)是B端產(chǎn)業(yè)一直想要實(shí)現(xiàn)的目標(biāo),崔總在這個(gè)項(xiàng)目產(chǎn)品化的過程中,有沒有可以分享的經(jīng)驗(yàn)?
崔海濤:作為AR+AI設(shè)備和技術(shù)提供商,我們肯定希望實(shí)現(xiàn)產(chǎn)品化和標(biāo)準(zhǔn)化,不過這個(gè)過程中需要適應(yīng)各種生產(chǎn)環(huán)境和使用場景,想要實(shí)現(xiàn)標(biāo)準(zhǔn)化或普適性其實(shí)并沒那么簡單。我們的做法是會把項(xiàng)目里面獲得的經(jīng)驗(yàn)、算法或者技巧等,將它們拆成最小化的模塊,這個(gè)模塊我們基本上是封裝好的,后面會根據(jù)客戶不同行業(yè)、不同的流程的需求,將這些小模塊像積木一樣搭建起來。這樣它既能滿足客戶的定制化需求,也能保證我們產(chǎn)品的標(biāo)準(zhǔn)性。
展開來看,這些小模塊包含了我們積累的算法、一些流媒體的處理方式、還有不同行業(yè)預(yù)留的其他設(shè)備的接口、甚至是交互方式等。因?yàn)檫@些模塊都經(jīng)過了驗(yàn)證,已經(jīng)相當(dāng)成熟,其他客戶上手時(shí)也會非常放心。
谷東科技工業(yè)AR頭盔H4000的模塊化特性(圖源:谷東科技)
案山子 :創(chuàng)業(yè)至今,崔總肯定也踩過一些坑,有沒有一些印象深刻的,或者背后有沒有值得分享的經(jīng)驗(yàn)或者教訓(xùn)?
崔海濤 :其實(shí)太多了。即便到現(xiàn)在我們也在不斷踩坑。AR眼鏡這個(gè)產(chǎn)品,它涉及的東西要比其他普通電子產(chǎn)品更多,首先它的顯示光學(xué)本身就是一個(gè)很棘手的問題,怎么做雙目融合、怎么實(shí)現(xiàn)空間計(jì)算,它對算力要求也是比較高的,里面的挑戰(zhàn)很大。另外AR眼鏡還要考慮如何實(shí)現(xiàn)3D渲染、手勢交互等,這些難度也相當(dāng)大。再者,AR眼鏡不是簡單拿在手上的東西它是用于佩戴的,所以眾口難調(diào),如何滿足不同人的需求也很難。
我覺得這些東西都是坑,甚至不小心踏進(jìn)去就會萬劫不復(fù)。對于從業(yè)者來說,我覺得還是需要盡量吸收自己的、還有行業(yè)以及供應(yīng)鏈的一些經(jīng)驗(yàn),盡量讓自己少踩一些坑,盡量多去聯(lián)合或合作,避免自己每一個(gè)坑都親自試了才知道。
觀眾提問:H4000這款A(yù)R頭盔產(chǎn)品可以外接什么東西?
崔海濤 :最基礎(chǔ)的是我們H4000可以疊加紅外傳感器,它能做到 10 米外的掃碼識別,效果要比普通手機(jī)好得多,另外頭盔還可以結(jié)合激光測距、探孔、柔性攝像頭、變焦鏡頭等組件使用。
觀眾提問:對于XR行業(yè),現(xiàn)在從哪些地方切入機(jī)會會更多?教育、文旅還是視頻等等?
崔海濤 :因?yàn)樾袠I(yè)還在不斷發(fā)展,現(xiàn)在雖說大家在網(wǎng)上看到了各種AR應(yīng)用場景,我覺得還是需要自己真正去實(shí)踐去感受,因?yàn)椴煌瑘鼍皯?yīng)用也有所不同。當(dāng)然我們現(xiàn)在已知的場景也只是很小的一部分,毋庸置疑未來AR會越來越重要,出現(xiàn)在更多領(lǐng)域扮演更多的重要角色,如比較前沿的無人機(jī)控制、無人潛水等都需要AR技術(shù)來解決,所以我覺得未來的想象空間無限。
案山子:今天非常感謝崔總來到我們直播間,今后我們的十年系列還會持續(xù)推出,我們接下來也會聊到更多的領(lǐng)域,希望大家多多關(guān)注。今天的直播到此結(jié)束。
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息