文/VR陀螺 萬里
今日凌晨,OpenAI召開了GPT-4o發(fā)布會(huì),雖然整個(gè)發(fā)布會(huì)時(shí)長不到半小時(shí),但是全程高能:AI語音響應(yīng)速度比肩真人、能夠理解情緒語調(diào)信息、可實(shí)時(shí)對(duì)音頻、視覺和文本進(jìn)行推理.......
陀螺君在觀看發(fā)布會(huì)時(shí)最大的感受便是:要么是ChatGPT里面塞了一個(gè)真人,要么則是科幻電影《Her》所構(gòu)建的未來場景真的已經(jīng)到來。
性能比肩GPT-4 Turbo,語音響應(yīng)速度甚至比真人更快
本次發(fā)布會(huì)中,OpenAI CEO山姆·奧特曼并未出席,OpenAI CTO Mira Murati主持了本次活動(dòng)。
在開始時(shí),Mira Murati先簡單闡述了以往所發(fā)布的GPT-4等模型的固有局限:人與人之間的互動(dòng)其實(shí)相較于此前的機(jī)器對(duì)話要復(fù)雜得多。
人與人之間對(duì)話交流除了語義以外,還有語氣、各種背景語境理解等,這些因素使得對(duì)話式AI想要獲得類似于真人般的體驗(yàn)會(huì)非常復(fù)雜。不過,OpenAI最新發(fā)布的GPT 4o正是一款試圖顛覆現(xiàn)有語音交互體驗(yàn)的AI大模型。
GPT-4o(里面的“o”所代表的是“omni(全能的)”),它與GPT-4類似,可以實(shí)時(shí)處理和輸出各種音頻、視覺以及文本信息。不過特別之處在于,它將音頻輸入響應(yīng)時(shí)間縮短至了原有模型的十分之一。
在GPT-4o之前,集成了GPT-3.5和GPT-4的ChatGPT音頻輸入響應(yīng)平均延遲分別為2.8秒和5.4秒,而到了現(xiàn)在,GPT-4o可以縮短至232毫秒,平均為320毫秒,官方稱這基本上與真人聊天感覺無異。
在OpenAI官網(wǎng)GPT-4o的演示頁面上,官方則在顯著的地方備注道:“此頁面上的所有視頻均為1倍語速”,已表明它對(duì)GPT-4o響應(yīng)速度的絕對(duì)自信。
圖源:OpenAI
為什么GPT-4o能夠?qū)崿F(xiàn)如此大的突破,原因在于它摒棄了原有AI語音對(duì)話的常見流程。在以前,想要實(shí)現(xiàn)AI對(duì)話其實(shí)需要經(jīng)歷三個(gè)步驟:語音轉(zhuǎn)文本——AI接收信息、處理并輸出文本——文本轉(zhuǎn)語音。而現(xiàn)在,GPT-4o具備了端到端能力,即所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。
除了能有效改善語音響應(yīng)速度外,端到端處理其實(shí)還有一個(gè)天然的優(yōu)勢,早些時(shí)候三段式解決方案在語音轉(zhuǎn)文本環(huán)節(jié)往往會(huì)丟失大量重要信息:比如說話者的笑聲、語氣詞、音調(diào)等,這些信息往往無法在文本信息上面反映但對(duì)于聊天卻有至關(guān)重要的作用,而端到端處理信息能有效保留這些內(nèi)容。
恰巧,谷歌在昨晚也放出了一段基于Gemini驅(qū)動(dòng)的AI助手的視頻,我們可以基于此簡單對(duì)比不同大模型之間的一些差距。
視頻來源:X
關(guān)于GPT-4o模型性能,OpenAI在其官網(wǎng)放出了相應(yīng)的測試結(jié)果,官方表示“GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4 Turbo級(jí)別的性能,同時(shí)在多語言、音頻和視覺功能上設(shè)置了新的高水位線。”
圖源:OpenAI
舉例而言,GPT-4o 在0-shot COT MMLU(常識(shí)問題)上創(chuàng)下了88.7%的高分,超越了GPT-4 Turbo、Gemini Pro 1.5、Claude 3 Opus、Llama 3 400b等競品;而在反映音頻翻譯性能的MLS 基準(zhǔn)測試中表現(xiàn)也優(yōu)于Meta的SeamlessM4T、谷歌的Gemini。
圖源:OpenAI
Mira Murati提到,從今日起,用戶可在ChatGPT中免費(fèi)體驗(yàn)GPT-4o的能力,不過當(dāng)前只局限于文本和圖像功能,(ChatGPT Plus用戶能享受到5倍的訪問量)。關(guān)于它最為核心的語音模式,則會(huì)在未來數(shù)周面向Plus用戶推出(alpha版本)。
此外,現(xiàn)如今開發(fā)者還可以基于API訪問GPT-4o的文本和圖像功能,與GPT-4 Turbo相比,GPT-4o可速度提高2倍,而價(jià)格降低一半,速率限制提高5倍。而關(guān)于語音和視頻功能,則會(huì)在未來數(shù)周內(nèi)面向特定的合作伙伴推出。
其他方面,Mira Murati還簡單提及了ChatGPT的一些改進(jìn),如今日正式推出基于macOS的桌面版本,而Windows版本則計(jì)劃在今年晚些時(shí)候推出。此外,ChatGPT的頁面UI也有所改進(jìn),進(jìn)一步提升了易用性。
macOS版本ChatGPT,圖源:Youtube
能撒嬌賣萌、能看代碼圖表,真實(shí)演示讓人嘆為觀止
本次發(fā)布會(huì)中,其實(shí)關(guān)于GPT-4o的底層技術(shù)講解并不算多,只有短短數(shù)分鐘,而很多細(xì)節(jié)、隱私方面的介紹也只是一帶而過。相反,整場發(fā)布會(huì)有高達(dá)三分之二的時(shí)長都放在了演示上面,OpenAI的研究主管Mark Chen、后訓(xùn)練團(tuán)隊(duì)負(fù)責(zé)人Barret Zoph參與了本次演示環(huán)節(jié)。
(高度懷疑OpenAI是在內(nèi)涵谷歌去年的Gemini發(fā)布會(huì),后者在發(fā)布會(huì)上只提供了錄屏演示,后續(xù)被扒出視頻經(jīng)過特殊剪輯處理。)
左二為Mark Chen,右一為Barret Zoph
根據(jù)粗略統(tǒng)計(jì),發(fā)布會(huì)期間共計(jì)演示了GPT-4o八個(gè)不同場景片段,這些場景頗具代表性,能夠很好體現(xiàn)GPT-4o的語音響應(yīng)以及多模態(tài)等相關(guān)能力。
剛開始時(shí),Mark Chen向ChatGPT詢問,“我在現(xiàn)場演示demo有點(diǎn)緊張,你能幫助我嗎?”ChatGPT回復(fù)時(shí)語音十分甜美,并且反應(yīng)非常迅速,同時(shí)還不失幽默地說了幾句俏皮話。在這個(gè)過程中,其實(shí)我們可以發(fā)現(xiàn)GPT-4o除了能夠識(shí)別常見語音指令外,甚至還能識(shí)別出用戶呼吸頻率,這是有別于其他AI的一項(xiàng)重要能力。
在另外一個(gè)演示中,Mark Chen向AI詢問能否講一個(gè)以“戀愛中的機(jī)器人”為主題的睡前故事,AI語音響應(yīng)同樣非常迅速,即便Mark Chen在AI輸出過程中多次打斷它的講話,AI也能很好把握用戶的需求,如增加朗讀的感情、增加更多戲劇性等。AI在這個(gè)過程中聲情并茂,各種停頓以及感情把控非常好,非常離譜。
此外,Barret Zoph還演示了GPT-4o的解數(shù)學(xué)題的能力,他在一張紙上面寫下一個(gè)方程組,ChatGPT不僅能準(zhǔn)確識(shí)別方程組,還能一步步給予相應(yīng)的解題步驟。不過,這里我們也可以看到智能手機(jī)作為AI載體其實(shí)有點(diǎn)尷尬,用戶需要一只手舉著手機(jī)拍攝,另一只手寫作業(yè),不是十分方便。
單從演示來看,GPT-4o的視覺能力還是相當(dāng)不錯(cuò)的,并且響應(yīng)也頗為迅速,后面,Barret Zoph寫下“I ♥ ChatGPT”時(shí),AI的回復(fù)則是充滿了“寵溺”,“擬人”屬性拉滿。
除手機(jī)APP外,Mark Chen還演示了macOS客戶端的ChatGPT能力,比如用戶能夠向其詢問“屏幕上面的代碼代表了什么?”、“這張表格里面能讀取什么信息?”等。在演示過程中,AI均給予了正確的響應(yīng)。
在發(fā)布會(huì)的最后階段,為了給AI“上點(diǎn)強(qiáng)度”,Mira Murati讀取了兩個(gè)直播留言反饋,并進(jìn)行了相應(yīng)的演示。其中一個(gè)演示是常見的翻譯功能,Mark Chen與Mira Murati雙方分別使用英語和意大利語對(duì)話,而ChatGPT則很好地翻譯了出來。
不過,在最后一個(gè)演示中,有用戶留言表示“AI能不能通過看你的臉識(shí)別你的感受?”這里有點(diǎn)小翻車,AI識(shí)別到的并非Barret Zoph的人臉,而是桌子。不過Barret Zoph臨危不亂通過新增提示語的方式實(shí)現(xiàn)了救場。(也有反饋稱這是由于ChatGPT率先調(diào)用了后置攝像頭所導(dǎo)致的失誤)
電影《Her》照進(jìn)現(xiàn)實(shí),已經(jīng)讓人迫切希望看到GPT-4o的“泛濫”
回顧整場發(fā)布會(huì),其實(shí)可以發(fā)現(xiàn)GPT-4o就像是GPT-Turbo的一個(gè)語音加強(qiáng)版,得益于出色的延遲以及“情感”能力,它將具備巨大的應(yīng)用落地的價(jià)值以及潛力,而相較于Siri等常見的語音聊天工具更是降維打擊。
Mira Murati在發(fā)布會(huì)中表示,“我們正在尋找關(guān)于未來用戶與機(jī)器交互的范式,而GPT-4o(憑借其易用性),正在將這一范式變得更加自然。”
發(fā)布會(huì)結(jié)束后,Altman在社交平臺(tái)上寫下了“her”這個(gè)單詞作為回應(yīng),這其實(shí)可以看到OpenAI以及Altman對(duì)于GPT-4o這款產(chǎn)品所寄予的厚望。
圖源:X
Ps:《Her》是一部在2013年上映的科幻電影,里面講述的是主人公西奧多愛上了搭載強(qiáng)人工智能電腦操作系統(tǒng)的故事,薩曼莎每天通過語音的方式與AI進(jìn)行聊天互動(dòng),最終使得西奧多在這段感情上越陷越深。
在博客中,Altman寫到:
新的語音(和視頻)模式是我用過的最好的計(jì)算機(jī)界面。感覺就像電影里的人工智能一樣;我仍然有點(diǎn)驚訝它是真的。事實(shí)證明,達(dá)到人類水平的響應(yīng)時(shí)間和表達(dá)能力是一個(gè)巨大的變化。
最初的ChatGPT暗示了語言界面的可能性;這個(gè)新事物感覺本質(zhì)上是不同的。它快速、智能、有趣、自然且有幫助。
對(duì)我來說,與電腦交談從來都不是很自然的事?,F(xiàn)在確實(shí)如此。當(dāng)我們添加(可選)個(gè)性化、訪問您的信息、代表您采取行動(dòng)的能力等等時(shí),我確實(shí)可以看到一個(gè)令人興奮的未來,我們能夠使用計(jì)算機(jī)做比以往更多的事情。
就在不久前,有消息傳出蘋果與OpenAI達(dá)成相關(guān)協(xié)議,并有望將ChatGPT整合到iPhone當(dāng)中。結(jié)合發(fā)布會(huì)來看,OpenAI對(duì)于與蘋果的關(guān)系也顯得頗為“曖昧”,如桌面版本應(yīng)用率先在Mac平臺(tái)推出,全程使用iPhone以及Mac設(shè)備作為演示等。目前暫未明確雙方將會(huì)采取何種合作模式,假如蘋果真的將GPT-4o引入Siri當(dāng)中,想必將會(huì)極大提升iPhone的產(chǎn)品競爭力。
圖源:X
發(fā)布會(huì)結(jié)束后,知名AI硬件開發(fā)商Humane(Altman是該公司的投資人之一)也演示了GPT-4o落地的場景:AI能夠基于所看到的畫面設(shè)計(jì)猜謎游戲。Humane CEO Imran Chaudhri表示這段視頻中其實(shí)同時(shí)運(yùn)用了“GPT-4o+Gemini”的相關(guān)能力。
值得一提的是,今年年初,谷歌發(fā)布對(duì)標(biāo)GPT-4 Turbo的Gemini 1.5 Pro,而僅僅半小時(shí)后,OpenAI火速發(fā)布了Sora,結(jié)果搶了谷歌的風(fēng)頭。而現(xiàn)在,OpenAI“故技重施”,選擇在谷歌I/O大會(huì)前一天發(fā)布GPT-4o,可謂火藥味十足。
從結(jié)果來看,OpenAI這一招其實(shí)頗為有效,今天鋪天蓋地都是GPT-4o相關(guān)新聞,谷歌I/O大會(huì)相關(guān)動(dòng)態(tài)則顯得頗為冷清,我們且看谷歌如何接招。
總結(jié)來看,OpenAI的GPT-4o,強(qiáng)是真的強(qiáng),并且這種強(qiáng)不僅僅只存在于實(shí)驗(yàn)數(shù)據(jù)方面,對(duì)于用戶的體感也十分明顯。此外,由于語音響應(yīng)+端到端能力的加持,它相較于GPT-4等產(chǎn)品也具有更強(qiáng)的應(yīng)用落地以及商業(yè)變現(xiàn)可能性。
陀螺君將很樂意看到GPT-4o在手機(jī)、電腦、智能硬件等產(chǎn)品方面的落地。除此之外,我們可以持續(xù)關(guān)注谷歌、Meta、微軟、蘋果等企業(yè)在AI領(lǐng)域的相關(guān)動(dòng)作。
參考資料:
1.https://openai.com/index/hello-gpt-4o/
2.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/
3.https://blog.samaltman.com/gpt-4o
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
版權(quán)申明:本文為VR陀螺原創(chuàng),任何第三方未經(jīng)授權(quán)不得轉(zhuǎn)載。如需轉(zhuǎn)載請(qǐng)聯(lián)系微信:vrtuoluo233 申請(qǐng)授權(quán),并在轉(zhuǎn)載時(shí)保留轉(zhuǎn)載來源、作者以及原文鏈接信息,不得擅自更改內(nèi)容,違規(guī)轉(zhuǎn)載法律必究。文中有圖片、視頻素材來自互聯(lián)網(wǎng)或無法核實(shí)出處,如涉及版權(quán)問題,請(qǐng)聯(lián)系本網(wǎng)站協(xié)商處理。
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息