文/VR陀螺 萬里
從ChatGPT開始引爆大語言模型,然后到后來國內(nèi)掀起百模大戰(zhàn),現(xiàn)如今,AI之火愈演愈烈,目前市場已經(jīng)步入關(guān)于AI大模型的應(yīng)用落地階段。在這個過程中,端側(cè)AI的發(fā)展始終是難以忽視的一環(huán)。
所謂端側(cè)AI,指的是不依賴于云服務(wù)器,能夠直接在設(shè)備本地所運行的AI體驗。目前GPT-4、Llama 2等主流的大語言模型仍需要調(diào)用云端接口算力,因而其在應(yīng)用過程中始終存在一定局限性,在算力、續(xù)航以及模型體積掣肘的當前,端側(cè)AI應(yīng)該如何發(fā)展落地?
圖源:網(wǎng)絡(luò)
可靠、強隱私,是端側(cè)AI的核心優(yōu)勢
去年,高通曾在一份報告中透露了有關(guān)端側(cè)AI的四大關(guān)鍵優(yōu)勢,其中包括:降低成本、可靠性、隱私安全以及個性化。
展開來看,關(guān)于成本問題,由于端側(cè)AI完全基于本地運行,無需額外調(diào)用云端API,因而邊際使用成本無限趨近于電費。早些時候,面壁智能CEO李大海曾做了一個測算:用一臺搭配驍龍855芯片的手機在本地端跑大模型,按照運行5年計算,每秒7.5tokens,那么170萬tokens的推理成本僅需人民幣1元,成本僅為Mistral-Medium的百分之一。
(Ps:話說回來,隨著近期一眾國內(nèi)AI云服務(wù)廠商吹響價格戰(zhàn)的號角,端側(cè)AI的價格優(yōu)勢可能并不會那么快凸顯出來。)
豆包大模型打響價格戰(zhàn),圖源:網(wǎng)絡(luò)
第二點,訪問云端AI大模型需要考慮到網(wǎng)絡(luò)時延以及穩(wěn)定性的問題,但是端側(cè)AI可以在本地離線執(zhí)行,可靠性要高得多。以AI語音助手為例,由于它要求及時應(yīng)答,因而對于時延具有很高的要求。
有數(shù)據(jù)指出普通人對話的延遲基本在1秒左右,而現(xiàn)如今主流的AI語音聊天工具時延多達數(shù)秒,如果能砍掉網(wǎng)絡(luò)上傳下載過程中所產(chǎn)生的時延(約數(shù)百毫秒),對于體驗也會具有頗為可觀的改善。
當然,對于端側(cè)AI,其更大的意義在于能很好兼顧隱私以及個性化的問題。我們現(xiàn)在看到各種基于AI而打造的天馬行空的功能,其實背后都涉及個人用戶對于隱私或多或少的讓渡。
舉例而言,本月谷歌在其I/O大會上展示了他們正在開發(fā)的AI助理項目:Project Astra,谷歌表示Project Astra具有記憶能力,可以將拍攝到的畫面切片保存下來。在一個場景中,用戶詢問設(shè)備她的眼鏡放在什么位置,AI憑借“記憶”能力順利幫用戶找到了眼鏡。
此外,微軟于本月也發(fā)布了一個名為回顧(Recall)的功能,它能記錄用戶在電腦設(shè)備上曾經(jīng)操作過的內(nèi)容,比如用戶在某一時間段瀏覽了一個電商網(wǎng)址,但是忘記了保存網(wǎng)頁,現(xiàn)在通過回顧這一功能可以輕松實現(xiàn)溯源。
未來用戶如果需要將各種私密對話、家庭住址信息等上傳云端交由AI處理,對于很多用戶而言其實是難以接受的。因而我們可以發(fā)現(xiàn),這一眾AI公司都在發(fā)布會過程中不厭其煩地聲明它們對于隱私的承諾,如谷歌表示不會使用用戶數(shù)據(jù)用于訓(xùn)練AI、微軟表示回顧功能將會保持在本地執(zhí)行等。端側(cè)AI的出現(xiàn),能夠在一定程度上打消人們對于隱私的疑慮。
端側(cè)AI的實踐:AI PC、AI手機
今年3月,微軟專門針對“AI PC”定了一個標準,其中包括三大方面:基于Windows系統(tǒng)、具備本地運行Copilot的能力以及配備性能最少為40TOPS的NPU(神經(jīng)網(wǎng)絡(luò)處理單元),其實這背后所強調(diào)的正是設(shè)備應(yīng)當具備的端側(cè)AI能力。
(值得一提的是,如果嚴格按照微軟給出的定義,即便基于CPU+GPU組合的傳統(tǒng)電腦性能足夠強勁,由于它沒有配備NPU單元,那么它也無法稱之為AI PC,今年英偉達在一場新聞發(fā)布會中對此進行了嘲諷。)
近日的Build年度全球開發(fā)者大會上,微軟進一步帶來了“Copilot+PCs”的新概念,它可以視為“AI PC”的升級版:Windows筆記本電腦需要配置內(nèi)置AI硬件并支持整個操作系統(tǒng)的AI功能。
對此,微軟為Windows系統(tǒng)引入了全新的架構(gòu),在AI方面,采用了在Azure云運行大型語言模型+本地端運行小型語言模型(SLM)的組合,SLM旨在提供與大模型類似的能力,但是它們對于硬件需求大大降低,很多AI體驗可以直接在本地運行。
發(fā)布會期間,微軟CEO Satya Nadella展示了多項系統(tǒng)級端側(cè)AI能力更新:如提供實時音視頻字幕、草稿實時生成高質(zhì)量畫作以及前面所提到的回顧功能等。
圖源:網(wǎng)絡(luò)
首批獲得Copilot+PCs認證的產(chǎn)品均配備了高通的X Elite以及X Plus處理器,它們擁有45TOPS的AI算力,作為參考,X Elite能以30token/s的速度本地運行Llama 2 70B版本。
圖源:高通
而在Mac陣營,雖然蘋果在AI方面“相對”低調(diào),不過實際上它也在積極著手于將端側(cè)AI體驗引入電腦等產(chǎn)品中。
5月的蘋果發(fā)布會上,新款ipad Pro甚至搶先Mac系列產(chǎn)品線配備了最新的M4芯片,該芯片NPU算力可達38TOPS,庫克表示新款iPad性能甚至足以傲視當今的AI PC。本次iPad發(fā)布會并沒有展示生成式AI相關(guān)內(nèi)容,不過里面出現(xiàn)了基于Final Cut Pro的一鍵去處視頻背景以及Logic Pro的自動生成貝斯音效的端側(cè)AI功能。
圖源:蘋果
電腦性能強勁,并且天然具備生產(chǎn)力屬性,所以端側(cè)AI率先在電腦平臺落地不足為奇。外界很多人將今年稱之為AI PC元年,調(diào)研機構(gòu)Canalys預(yù)測今年AI PC市場份額有望達到19%,出貨量達到5100萬。
圖源:網(wǎng)絡(luò)
除電腦以外,一眾手機廠商也在探索AI在設(shè)備端的落地,今年以來,“AI手機”的概念也開始頻頻傳出,所謂AI手機,OPPO所給出的定義是AI手機需要具備:創(chuàng)作能力、自學(xué)習(xí)能力、真實世界感知能力、算力高效利用能力。今年聯(lián)發(fā)科發(fā)布了一份《生成式AI手機產(chǎn)業(yè)白皮書》,里面提到:生成式AI手機是利用大規(guī)模、預(yù)訓(xùn)練的生成式AI模型,實現(xiàn)多模態(tài)內(nèi)容生成、情境感知,并具備不斷增強的類人能力。
由此可見,目前市場關(guān)于“AI手機”是什么依然沒有統(tǒng)一的共識,不過,它或許跟AI PC一樣,要求手機具備一定AI算力,并能提供一定的端側(cè)AI體驗。
圖源:Counterpoint
去年高通驍龍8Gen3發(fā)布會期間,高通曾展示了將LLM“塞入”手機的能力,高通表示搭載驍龍8 Gen 3的設(shè)備可在本地運行從3B到13B的大模型;而聯(lián)發(fā)科在近期開發(fā)者大會期間也表示天璣9300+能夠在端側(cè)運行Llama 2 7B版本,速度可達到22token/s。
考慮到智能手機屬于小算力、低功耗設(shè)備,將大模型直接部署在手機端其實并不現(xiàn)實。未來,AI手機也將會采用“端+云”混合AI的策略,在云端部署大模型,在端側(cè)部署小模型。以今年三星所發(fā)布的S24系列機型為例,設(shè)備端集成了實時通話轉(zhuǎn)文本、口譯員、視頻轉(zhuǎn)慢動作等功能,此外,它還可以結(jié)合云端大模型實現(xiàn)畫圈搜索、文章總結(jié)等AI功能。
三星的Note Assist功能,圖源:網(wǎng)絡(luò)
對于蘋果而言,蘋果的生成式AI技術(shù)更側(cè)重于“為最終用戶帶來實際利益,同時嘗試使用端側(cè)AI來保護用戶隱私”。有爆料稱今年iOS 18將會出現(xiàn)以下端側(cè)AI功能:自動匯總通知、為新聞和語音備忘錄生成摘要、日歷添加建議、照片AI編輯等。
圖源:網(wǎng)絡(luò)
端側(cè)AI如何與VR/AR相結(jié)合
繼電腦手機以后,下一步,則是將AI引入VR/AR等可穿戴式設(shè)備當中,對于AR設(shè)備而言,里面最具想象力的莫過于AI語音助手,不過由于可穿戴式設(shè)備對于功耗要求極為苛刻,對此想要實現(xiàn)端側(cè)運行會更為困難。
以Ray-Ban Meta上面所搭載的AR1芯片為例,該芯片的功耗僅有1瓦級,手機芯片功耗為10瓦級,而電腦主機能達到上百瓦,這背后其實也能簡單換算不同設(shè)備的性能差距。
今年年初,高通發(fā)布了一份關(guān)于NPU的白皮書,里面描述了高通NPU的發(fā)展歷程,早些時候SOC專門引入NPU模塊旨在用于解決音頻和語音相關(guān)問題,2016年以后NPU開始更加專注于處理計算攝影,而現(xiàn)在,隨著LLM和LVM的發(fā)展,它對于NPU提了更高的要求。
回到VR/AR設(shè)備來看,既然將LLM、LVM引入設(shè)備終端不切實際,我們可以先從音頻降噪、視覺增強、空間感知等簡單場景切入以解決部分問題,實際上,這也是Meta、蘋果等廠商正在努力的方向。
圖源:高通
今年1月,Mtea在其博客文章中講解了關(guān)于AI應(yīng)用于VR/AR的系列用例,其中包括:
圖源:Meta
對于Vision Pro而言,它也在積極落地相應(yīng)的AI體驗,如即將引入實時字幕(Live Captions)輔助功能,啟用后,用戶將能在屏幕上實時查看對話的文字信息,全局可用。(目前關(guān)于該功能的介紹仍不算多,猜測應(yīng)該支持離線運行)。
圖源:網(wǎng)絡(luò)
由于Vision Pro配備了電腦級芯片,因而未來引入完全基于端側(cè)的AI語音助手其實也并非不可能。今年1月,蘋果發(fā)布了一篇名為《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》,里面闡述了如何解決將LLM引入手機終端時遇到的手機內(nèi)存不足的問題。有數(shù)據(jù)指出,70 億參數(shù)的模型需要14GB以上的內(nèi)存才能加載半精度浮點格式的參數(shù),這對于Vision Pro而言壓力其實不算很大。(Vision Pro NPU算力約15.8TOPS,配備16GB RAM)
此外,近期蘋果在AI方面動作頻頻,以下這些AI體驗/能力除了應(yīng)用于未來的手機電腦終端外,它們同樣可以應(yīng)用于VR/AR設(shè)備當中:
圖源:蘋果
總而言之,端側(cè)AI的發(fā)展,其實是AI廣泛應(yīng)用落地的必由之路,這背后,需要考驗AI廠商的算法能力、芯片廠商的硬件設(shè)計能力以及終端廠商對于市場以及消費需求的洞察。
早些時候,OpenAI發(fā)布了其最新的多模態(tài)大模型GP-4o,模型具有極快的語音響應(yīng),并且具備文本、語音以及視覺多模態(tài)理解能力,如果未來我們真的能夠?qū)⑦@一大模型安放在本地,那么科幻電影《Her》時刻,也將真正到來。
參考資料:
https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Unlocking-on-device-generative-AI-with-an-NPU-and-heterogeneous-computing.pdf
https://www.meta.com/zh-cn/blog/quest/ai-powered-technologies-quest-3-pro-ray-ban-meta-smart-glasses/
https://www.macrumors.com/roundup/ios-18/
https://www.qualcomm.com/news/onq/2023/08/5-benefits-of-on-device-generative-ai
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請聯(lián)系微信:vrtuoluo233 申請授權(quán),并在轉(zhuǎn)載時保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實出處,如涉及版權(quán)問題,請聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息