北京時間5月14日凌晨
美國人工智能研究公司OpenAI
舉辦春季發佈會
發佈了新旗艦模型GPT-4o
並展示了一些最新研究

只多一個「o」
卻多了很多新功能
GPT-4o的「o」代表「omni」
源自拉丁語「omnis」
詞意為「全能」
GPT-4o可以接受文本、音頻和圖像
三者組合作為輸入
並生成文本、音頻和圖像的
任意組合輸出

在GPT-4o之前
GPT-4無法直接觀察音調、
說話的人和背景噪音
也無法輸出笑聲、
歌唱聲和表達情感
GPT-4o可以在232毫秒內
對音頻輸入做出反應
與人類在對話中的反應時間相近
比如
GPT-4o能夠從用戶急促的喘氣聲中
理解「緊張」的含義
並指導用戶進行深呼吸
還可以根據用戶要求變換語調
圖像輸入方面
OpenAI高管啟動攝像頭
要求實時完成一個一元方程題
GPT-4o輕鬆完成了任務
ChatGPT桌面版
還能夠對代碼和氣溫圖表
進行實時解讀
性能方面
GPT-4o在文本、推理和編碼等方面
實現了與GPT-4 Turbo
(OpenAI於2023年11月
發佈的多模態模型)
級別相當的性能
同時
在多語言、音頻
和視覺功能方面的表現分數
也創下了新高

什麼時候能用到這些新品?
OpenAI介紹
將首先向ChatGPT Plus
和Team用戶推出GPT-4o
並且很快會向企業用戶推出
免費用戶也有機會體驗GPT-4o
但當達到限額時
ChatGPT將自動切換到GPT-3.5
發佈會的「B面」
未提及「可持續性」
GPT-4o在響應速度方面
幾乎解決了延遲問題
日本經濟新聞報道稱
克服這個弱點
讓人工智能的使用
可能會變得更加廣泛
NHK稱
「IT公司之間的開發競爭正在加劇」
BBC認為
本次發佈會向人們展示了
OpenAI的發展方向
GPT-4o打算成為下一代AI數字助理
但也提示
GPT-4o變得越複雜
就需要更多的算力
而本次發佈會
沒有提及「可持續性」

CNBC則在報道中指出
一些業內人士
對未經測試的新服務
進入市場的速度表示擔憂
學術界和倫理學家
對該技術傳播偏見的傾向感到苦惱
業界人士指出
儘管GPT-4o在多模態能力上
有所提升
但OpenAI並未展示出
真正的視覺多模態突破功能
在實時音頻交互方面
市場上已有產品具備類似功能
ChatGPT雖處高光
背後也有危機
OpenAI CEO山姆·奧特曼
(Sam Altman)曾表示
未來五年
OpenAI最大的瓶頸
可能會出現在
供應鏈和計算資源方面

另一方面
OpenAI也一直因版權問題
受到質疑
發佈會前不久
美國八家新聞機構提起訴訟
稱其利用大量版權新聞文章
訓練聊天機械人ChatGPT
控告OpenAI侵權
值得一提的是
OpenAI把此次發佈會時間
安排在谷歌的I/O大會之前
(谷歌也將發佈AI產品)
相當於給谷歌「甩了個王炸」
大家都在等着看
接下來谷歌如何「接招」?
發佈會結束後
奧特曼在個人社交平台
發佈了一個單詞:
她(her)


在科幻電影《她》里
AI助理愛上了人類
而今天
具備新功能、接入GPT-4o的
ChatGPT語音助手產品
似乎真的有望讓科幻電影的橋段
走入現實
撰文:李飛、曾紫琪 編輯/排版:李汶鍵統籌:李政葳
參考丨OpenAI官網、日本經濟新聞、BBC、CNBC、聯合早報
更多信息歡迎關注光明網數字化頻道
來源: 世界互聯網大會