GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了

2024年05月14日04:40:40 科技 5184
GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞

作者:李寶珠 & 十九

編輯:三羊


openai 發布 gpt-4o,chatgpt 基於gpt-4o 實現了語音交互,並在文本與視覺能力上有顯著提升。


從 5 月初爆出將在 9 日發布搜索引擎;到 5 月 11 日,官宣將在當地時間 5 月 13 日 10 時發布 chatgpt 與 gpt-4 更新;再到 sam altman 親自下場闢謠「不是 gpt-5,也不是搜索引擎」,而是「像魔法一樣的新東西」;隨後,網友開始通過各種蛛絲馬跡深挖其發布內容,最終 gpt-4.5 和 chatgpt 的通話功能成為熱門候選。


最初,有網友調侃 sam altman 此舉是準備和 google i/o 大會搶風頭,但對比 gemini 1.5 和 sora 的對決,如果沒點「硬貨」,altman 恐怕也不願鋌而走險在谷歌年度大會的前一天發布更新。


事實也的確如此,openai 這一次看似臨時攢局的線上直播發布會,實則有備而來。


本次 openai spring updates 未見 sam altman 的身影,而是由公司的 cto muri murati 帶來了一系列更新,包括了:


* gpt-4o 

* chatgpt 的語音交互功能

* chatgpt 的視覺能力

gpt-4o:語音 buff 加持,所有用戶免費使用

自 2023 年 3 月發布以來,gpt-4 霸榜已久,只要有新模型發布,便會被搬出山來進行一番對比,這也足以證明其性能之強大。此外,gpt-4 也是 openai 現階段極具商業價值的「搖錢樹」,屢屢被馬斯克炮轟「不 open」。


更重要的是,面對 meta 開源的 llama、谷歌開源的 gemma、馬斯克開源的 grok,基於 gpt-3.5 的免費版 chatgpt 壓力倍增。而在 gpt-5 遲遲沒有露面之際,不少網友都猜測,openai 會釋放出新版本的 gpt-4 來接替 gpt-3.5。


不出所望,在今天的直播中,openai 發布了新版本 gpt-4o,所有用戶都可以免費使用,付費用戶將擁有 5 倍於免費用戶的容量限制。其中的 「o」表示「omni」,寓意着向更自然的人機交互邁進。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


openai cto muri murati 介紹道,gpt-4o 提供了 gpt-4 級別的 ai 能力,能夠基於語音、文字和視覺進行推理。其接受文本、音頻和圖像的任意組合輸入,並能夠生成文本、音頻和圖像的任意組合輸出。


gpt-4o 演示視頻


在 gpt-4o 之前,使用語音模式與 chatgpt 對話的平均延遲時間為 2.8 秒 (gpt-3.5) 和 5.4 秒 (gpt-4)。為優化交互體驗,openai 在文本、視覺和音頻方面訓練了一個端到端新模型,這意味着所有輸入和輸出都由同一個神經網絡處理,從而減少了信息丟失。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


性能方面,gpt-4o 能在 232 毫秒內對音頻輸入做出反應,平均反應時間為 320 毫秒,這與人類在對話中的反應時間相近。此外,gpt-4o 在英語和代碼文本方面的性能與 gpt-4 turbo 相當,在非英語語言文本方面也有顯著提高,改進了 50 種不同語言的質量和識別速度。同時,在 api 方面速度是原來的 2 倍,但價格卻便宜 50%。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


此外,gpt-4o 的推理能力也有大幅提升,官方數據表示,gpt-4o 在 0-shot cot mmlu(常識題)中創造了 88.7% 的新高分。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


openai 的 william fedus 曬出了 gpt-4o 在 lmsys 榜單上的排名情況,團隊給 gpt-4o 的命名也很有意思:im-also-a-good-gpt2-chatbot。



他還介紹道,在更難的提示集上、尤其是在編碼能力上,gpt-4o 的水平比 openai 此前最先進的大模型高出 +100 elo。


william fedus 直言,gpt-4o 不僅是世界上最好的模型,而且在 chatgpt 中免費提供,這在前沿模型中開闢了先例。


在某種程度上,gpt-4o 可以看作是 openai 對於其「開源」產品的更新,而對於外界屢次詬病的「openai 不 open」,sam altman 也在其 blog 中表示:「openai 的使命之一就是免費(或以優惠價格)向人們提供功能強大的人工智能工具。我感到非常自豪的是,我們在 chatgpt 中免費提供了世界上最好的模型,沒有廣告或類似的東西。


對於 gpt-4o 的性能,sam altman 也毫不吝嗇讚美之詞:「新的語音(和視頻)模式是我用過的最好的計算界面。它給人的感覺就像電影中的人工智能;而它的真實性仍然讓我感到有些驚訝,其中的一個重要變化便是達到人類水平的響應時間和表現力。



隨後,altman 還在其賬號發布了「her」,也暗示了自己新版模型將開啟「her 時代」。


值得注意的是,gpt-4o api 中並沒有為所有客戶提供語音功能。


openai 表示,gpt-4o 通過過濾訓練數據和後期訓練完善模型行為 (refining the model’s behavior through post-training) 等技術,在設計中就考慮到了各種模式的安全性,團隊還創建了新的安全系統,從而為語音輸出提供保護。


儘管如此,openai 還是以濫用風險為由表示,計劃在未來幾周內首先向 「一小部分可信賴的合作夥伴」推出對 gpt-4o 的新音頻與視頻功能。



而 gpt-4o 的文本和圖像功能今天開始便會在 chatgpt 中推出。未來幾周,openai 將在 chatgpt plus 中推出帶有 gpt-4o 的新版語音模式 alpha。開發人員現在也可以在 api 中以文本和視覺模式訪問 gpt-4o。

her 時代來了:chatgpt 有感情的語音交互

早在今年 2 月,前 openai 開發者關係負責人就提及,chatgpt 的終極形態不僅僅是聊天。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞

5 月 11 日,sam altman 也在一檔播客節目中稱,openai 將繼續改進並提升 chatgpt 的語音功能質量,並表示語音交互是通向未來交互方式的一個重要途徑。


在今天的發布會上,openai 也展示了其提升 chatgpt 語音質量的階段性成果——基於 gpt-4o 實現了語音交互,且響應速度大幅提升。


具體而言,chatgpt 的升級更新主要體現在三個方面——實時交互、多模態輸入輸出、感知情緒。


在實時交互方面,在現場演示中,chatgpt 幾乎可以即時回應提問者的所有問題,提問者如果出言打斷 chatgpt 的回答,其也能夠停下來。muri murati 還應現場觀眾的要求,展示了 gpt-4o 的實時翻譯功能。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


多模態輸入/輸出則無需贅述,基於 gpt-4o 的 chatgpt 能夠識別文本、語音與視覺信息,並根據需求以任一形式進行回答。


兩個 chatgpt cosplay 客服與顧客對話


在感知情緒與情緒反饋方面,升級後的 chatgpt 能夠根據人物自拍照,快速分析人物的面部情緒。同時還可以根據對話者的要求調整說話時的語氣,從誇張戲劇到冰冷機械,甚至還可以唱歌,這展示了其出色的可塑性。


對此,muri murati 表示:「我們知道這些模型越來越複雜,但我們希望交互體驗變得更自然、更簡單,讓你完全不用關注用戶界面,而只關注與 gpt 的協作,這一點非常重要。」


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


此外,在推理分析方面,gpt-4o 還改進了 chatgpt 的視覺功能。給它一張拍攝的照片,chatgpt 可以快速瀏覽圖片的內容並回答相關問題,比如拍照解決數學問題。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


還可以根據分享的代碼圖片描述代碼的具體內容,分析假若改變代碼其中的一個變量,將會產生什麼具體影響。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


給 gpt-4o 一個圖表,它還能夠對圖表的內容進行具體分析。


GPT-4o 屠龍式震撼!多模態、實時交互、全員免費可用,絲滑語音交互的 ChatGPT 這把贏麻了 - 天天要聞


openai 的這一創新嘗試將 chatgpt 的應用橫跨語音、文本和視覺,這預示着未來人機交互可能會更加自然和流暢。


對此,openai 表示,具有視覺和音頻功能的 ai 語音助手具有像智能手機一樣的變革性潛力,理論上它可以做到一系列現在的 ai 助手無法做到的事,比如充當論文、數學指導老師,或是翻譯交通標識、幫助解決汽車故障等。

寫在最後

從 gpt 橫空出世以來,openai 一度被視為大模型時代的「風向標」。細數硅谷的傳統巨頭:


* 微軟與 openai 的關係微妙,既是金主投資人,也在自家業務中部署了 gpt 模型,同時還為 openai 提供雲服務; 
* 蘋果今年開始在生成式 ai 上加大投入,並發布了自研大模型,但起步稍晚,能否撼動 openai 地位仍未可知,同時還有爆料稱蘋果已經要和 openai、谷歌在大模型上進行合作;

* 亞馬遜作為全球最大的雲基礎設施提供商,雖然也推出了自家的大模型 amazon titan,但這只是其雲託管服務 bedrock 的一部分,儘管亞馬遜還投資了 anthropic,但目前看來還是難與 openai 抗衡。


一番對比,谷歌似乎是最有希望和 openai 掰掰手腕的企業,不僅有深厚的技術積累(transformer 架構便是出自谷歌),還有豐富的生態供大模型一展拳腳。


然而,關注谷歌的讀者或許能夠發現,這位老牌巨頭在大模型時代有點「汪峰」體質了(狗頭保命)——從 bard、palm 2 在性能上不及 gpt-4,到顛覆巨作 gemini 1.5 發布被 sora 搶熱度,再到 3 月就定檔的 google i/o 大會在最佳造勢期被 openai 的一個「臨時起意」的直播搶風頭……


就在今天(5 月 14 日)凌晨,openai 祭出了「世界上最好的模型」,不知道劈柴哥看了今天的發布會,會不會連夜「改劇本」?


答案將在明天凌晨揭曉,期待谷歌能打一場「翻身仗」,hyperai超神經也將持續帶來一手報道!

科技分類資訊推薦

探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖 - 天天要聞

探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖

前段時間的vivo X系列新品發布讓我們記憶深刻,而剛剛結束結束的“影像新藍圖X系列技術溝通會”也十分精彩,這次溝通會不僅告訴了大家vivo在影像領域的最新成果,也讓粉絲們對vivo影像背後的故事有更多了解,在vivo影像的發展歷程中可以分成兩方面,一方面,vivo通過自主研發,不斷提升自身的影像技術實力,另一方面,vivo...
華為再次亮劍,鴻蒙系統亮點多多 - 天天要聞

華為再次亮劍,鴻蒙系統亮點多多

5月15日,華為夏季全場景新品發布會簡直是一場視覺與科技的盛宴,看得我熱血沸騰!不得不說,華為這次真的是大招頻出,新品多到讓人眼花繚亂!先說說那個華為MatePad 11.5 ” S吧,一亮相就讓人眼前一亮!它的設計簡約而不失時尚,屏幕清晰得讓人彷彿置身其中。
【新機】升級了個寂寞?藍廠新機發布 - 天天要聞

【新機】升級了個寂寞?藍廠新機發布

昨天晚上藍廠發布了新機iQOO Neo9s Pro,機子採用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭載天璣9300+,前置1600萬像素,後置IMX920主攝+5000萬超廣角。電池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃後蓋,顏值確實提升了不少。不過還是塑料中框+短焦指紋。12+256GB 2699元
AI Agent在哪些行業領域會產生影響? - 天天要聞

AI Agent在哪些行業領域會產生影響?

在如今飛速前進的科技浪潮中,人工智能(AI)技術的創新正以前所未有的速度重塑我們的生活和工作的每一個角落。在這一浪潮中,Agent AI智能體以其卓越的能力脫穎而出,它通過模擬人類智能行為,能夠勝任一系列複雜任務,並在多個領域展現出了其無法替代的價值。
續航王者vivo Y200系列掀起購機狂潮,618購機可享多重福利優惠 - 天天要聞

續航王者vivo Y200系列掀起購機狂潮,618購機可享多重福利優惠

智能手機的選擇五花八門,但有一條賽道被vivo獨佔,那就是長續航。剛剛發布的vivo Y200系列憑藉其超長的續航能力和輕薄的設計,一經推出便受到廣大用戶的關注和好評,徹底改變了行業續航的基準線。如今Y200系列新品已正式開啟預售及首銷,期間購機可享多重福利優惠。
【現場】人工關節集采續約開標:企業代表“不緊張”,多家報價壓線進 - 天天要聞

【現場】人工關節集采續約開標:企業代表“不緊張”,多家報價壓線進

界面新聞記者 | 唐卓雅界面新聞編輯 | 謝欣5月21日,國家組織人工關節集中帶量採購協議期滿接續採購(下稱“人工關節續采”)在天津東麗湖恆大酒店國際會議中心開標。此次續標的產品範圍與2021年的首輪集采相同,包括髖關節(陶瓷-陶瓷類、陶瓷-聚乙烯類和合金-聚乙烯類)和膝關節,採購周期由兩年延長為三年,採購需求量為...
產品經理談一談:水果店應該怎麼開 - 天天要聞

產品經理談一談:水果店應該怎麼開

這幾年,不少人都計划著整個副業,或者以後被畢業了去做什麼。有準備擺攤的,有準備開咖啡店開書店的,也有人準備開水果店的。只是工作這麼久了,相關的經驗能否平移過去?如果用產品思維來看,我們做一個店面,需要怎麼做呢?