OpenAI春季發布會:GPT-4o登場!與人類反應時間相近?

北京時間5月14日凌晨

美國人工智慧研究公司OpenAI

舉辦春季發布會

發布了新旗艦模型GPT-4o

並展示了一些最新研究

只多一個「o」

卻多了很多新功能

GPT-4o的「o」代表「omni」

源自拉丁語「omnis」

詞意為「全能」

GPT-4o可以接受文本、音頻和圖像

三者組合作為輸入

並生成文本、音頻和圖像的

任意組合輸出

在GPT-4o之前

GPT-4無法直接觀察音調、

說話的人和背景噪音

也無法輸出笑聲、

歌唱聲和表達情感

GPT-4o可以在232毫秒內

對音頻輸入做出反應

與人類在對話中的反應時間相近

比如

GPT-4o能夠從用戶急促的喘氣聲中

理解「緊張」的含義

並指導用戶進行深呼吸

還可以根據用戶要求變換語調

圖像輸入方面

OpenAI高管啟動攝像頭

要求實時完成一個一元方程

GPT-4o輕鬆完成了任務

ChatGPT桌面版

還能夠對代碼和氣溫圖表

進行實時解讀

性能方面

GPT-4o在文本、推理和編碼等方面

實現了與GPT-4 Turbo

(OpenAI於2023年11月

發布的多模態模型)

級別相當的性能

同時

在多語言、音頻

和視覺功能方面的表現分數

也創下了新高

什麼時候能用到這些新品?

OpenAI介紹

將首先向ChatGPT Plus

和Team用戶推出GPT-4o

並且很快會向企業用戶推出

免費用戶也有機會體驗GPT-4o

但當達到限額時

ChatGPT將自動切換到GPT-3.5

發布會的「B面」

未提及「可持續性」

GPT-4o在響應速度方面

幾乎解決了延遲問題

日本經濟新聞報道稱

克服這個弱點

讓人工智慧的使用

可能會變得更加廣泛

NHK

「IT公司之間的開發競爭正在加劇」

BBC認為

本次發布會向人們展示了

OpenAI的發展方向

GPT-4o打算成為下一代AI數字助理

但也提示

GPT-4o變得越複雜

就需要更多的算力

而本次發布會

沒有提及「可持續性」

CNBC則在報道中指出

一些業內人士

對未經測試的新服務

進入市場的速度表示擔憂

學術界和倫理學家

對該技術傳播偏見的傾向感到苦惱

業界人士指出

儘管GPT-4o在多模態能力上

有所提升

但OpenAI並未展示出

真正的視覺多模態突破功能

在實時音頻交互方面

市場上已有產品具備類似功能

ChatGPT雖處高光

背後也有危機

OpenAI CEO山姆·奧特曼

Sam Altman)曾表示

未來五年

OpenAI最大的瓶頸

可能會出現在

供應鏈和計算資源方面

另一方面

OpenAI也一直因版權問題

受到質疑

發布會前不久

美國八家新聞機構提起訴訟

稱其利用大量版權新聞文章

訓練聊天機器人ChatGPT

控告OpenAI侵權

值得一提的是

OpenAI把此次發布會時間

安排在谷歌的I/O大會之前

(谷歌也將發布AI產品)

相當於給谷歌「甩了個王炸

大家都在等著看

接下來谷歌如何「接招」?

發布會結束後

奧特曼在個人社交平台

發布了一個單詞:

她(her)

在科幻電影《她》里

AI助理愛上了人類

而今天

具備新功能、接入GPT-4o的

ChatGPT語音助手產品

似乎真的有望讓科幻電影的橋段

走入現實

撰文:李飛、曾紫琪 編輯/排版:李汶鍵統籌:李政葳

參考丨OpenAI官網、日本經濟新聞、BBC、CNBC、聯合早報

更多信息歡迎關注光明網數字化頻道

來源: 世界互聯網大會