天天要聞

OpenAI春季發布會：GPT-4o登場！與人類反應時間相近？

分類：科技

瀏覽數：1295

2024-05-14

北京時間5月14日凌晨

美國人工智慧研究公司OpenAI

舉辦春季發布會

發布了新旗艦模型GPT-4o

並展示了一些最新研究

只多一個「o」

卻多了很多新功能

GPT-4o的「o」代表「omni」

源自拉丁語「omnis」

詞意為「全能」

GPT-4o可以接受文本、音頻和圖像

三者組合作為輸入

並生成文本、音頻和圖像的

任意組合輸出

在GPT-4o之前

GPT-4無法直接觀察音調、

說話的人和背景噪音

也無法輸出笑聲、

歌唱聲和表達情感

GPT-4o可以在232毫秒內

對音頻輸入做出反應

與人類在對話中的反應時間相近

比如

GPT-4o能夠從用戶急促的喘氣聲中

理解「緊張」的含義

並指導用戶進行深呼吸

還可以根據用戶要求變換語調

圖像輸入方面

OpenAI高管啟動攝像頭

要求實時完成一個一元方程題

GPT-4o輕鬆完成了任務

ChatGPT桌面版

還能夠對代碼和氣溫圖表

進行實時解讀

性能方面

GPT-4o在文本、推理和編碼等方面

實現了與GPT-4 Turbo

（OpenAI於2023年11月

發布的多模態模型）

級別相當的性能

同時

在多語言、音頻

和視覺功能方面的表現分數

也創下了新高

什麼時候能用到這些新品？

OpenAI介紹

將首先向ChatGPT Plus

和Team用戶推出GPT-4o

並且很快會向企業用戶推出

免費用戶也有機會體驗GPT-4o

但當達到限額時

ChatGPT將自動切換到GPT-3.5

發布會的「B面」

未提及「可持續性」

GPT-4o在響應速度方面

幾乎解決了延遲問題

日本經濟新聞報道稱

克服這個弱點

讓人工智慧的使用

可能會變得更加廣泛

NHK稱

「IT公司之間的開發競爭正在加劇」

BBC認為

本次發布會向人們展示了

OpenAI的發展方向

GPT-4o打算成為下一代AI數字助理

但也提示

GPT-4o變得越複雜

就需要更多的算力

而本次發布會

沒有提及「可持續性」

CNBC則在報道中指出

一些業內人士

對未經測試的新服務

進入市場的速度表示擔憂

學術界和倫理學家

對該技術傳播偏見的傾向感到苦惱

業界人士指出

儘管GPT-4o在多模態能力上

有所提升

但OpenAI並未展示出

真正的視覺多模態突破功能

在實時音頻交互方面

市場上已有產品具備類似功能

ChatGPT雖處高光

背後也有危機

OpenAI CEO山姆·奧特曼

（Sam Altman）曾表示

未來五年

OpenAI最大的瓶頸

可能會出現在

供應鏈和計算資源方面

另一方面

OpenAI也一直因版權問題

受到質疑

發布會前不久

美國八家新聞機構提起訴訟

稱其利用大量版權新聞文章

訓練聊天機器人ChatGPT

控告OpenAI侵權

值得一提的是

OpenAI把此次發布會時間

安排在谷歌的I/O大會之前

（谷歌也將發布AI產品）

相當於給谷歌「甩了個王炸」

大家都在等著看

接下來谷歌如何「接招」？

發布會結束後

奧特曼在個人社交平台

發布了一個單詞：

她（her）

在科幻電影《她》里

AI助理愛上了人類

而今天

具備新功能、接入GPT-4o的

ChatGPT語音助手產品

似乎真的有望讓科幻電影的橋段

走入現實

撰文：李飛、曾紫琪編輯/排版：李汶鍵統籌：李政葳

參考丨OpenAI官網、日本經濟新聞、BBC、CNBC、聯合早報

更多信息歡迎關注光明網數字化頻道

來源：世界互聯網大會

「OpenAI春季發布會：GPT-4o登場！與人類反應時間相近？」相關視頻

科技分類資訊推薦

↑