GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了

2024年05月14日04:40:40 科技 5184
GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻

作者:李宝珠 & 十九

编辑:三羊


openai 发布 gpt-4o,chatgpt 基于gpt-4o 实现了语音交互,并在文本与视觉能力上有显著提升。


从 5 月初爆出将在 9 日发布搜索引擎;到 5 月 11 日,官宣将在当地时间 5 月 13 日 10 时发布 chatgpt 与 gpt-4 更新;再到 sam altman 亲自下场辟谣「不是 gpt-5,也不是搜索引擎」,而是「像魔法一样的新东西」;随后,网友开始通过各种蛛丝马迹深挖其发布内容,最终 gpt-4.5 和 chatgpt 的通话功能成为热门候选。


最初,有网友调侃 sam altman 此举是准备和 google i/o 大会抢风头,但对比 gemini 1.5 和 sora 的对决,如果没点「硬货」,altman 恐怕也不愿铤而走险在谷歌年度大会的前一天发布更新。


事实也的确如此,openai 这一次看似临时攒局的线上直播发布会,实则有备而来。


本次 openai spring updates 未见 sam altman 的身影,而是由公司的 cto muri murati 带来了一系列更新,包括了:


* gpt-4o 

* chatgpt 的语音交互功能

* chatgpt 的视觉能力

gpt-4o:语音 buff 加持,所有用户免费使用

自 2023 年 3 月发布以来,gpt-4 霸榜已久,只要有新模型发布,便会被搬出山来进行一番对比,这也足以证明其性能之强大。此外,gpt-4 也是 openai 现阶段极具商业价值的「摇钱树」,屡屡被马斯克炮轰「不 open」。


更重要的是,面对 meta 开源的 llama、谷歌开源的 gemma、马斯克开源的 grok,基于 gpt-3.5 的免费版 chatgpt 压力倍增。而在 gpt-5 迟迟没有露面之际,不少网友都猜测,openai 会释放出新版本的 gpt-4 来接替 gpt-3.5。


不出所望,在今天的直播中,openai 发布了新版本 gpt-4o,所有用户都可以免费使用,付费用户将拥有 5 倍于免费用户的容量限制。其中的 「o」表示「omni」,寓意着向更自然的人机交互迈进。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


openai cto muri murati 介绍道,gpt-4o 提供了 gpt-4 级别的 ai 能力,能够基于语音、文字和视觉进行推理。其接受文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。


gpt-4o 演示视频


在 gpt-4o 之前,使用语音模式与 chatgpt 对话的平均延迟时间为 2.8 秒 (gpt-3.5) 和 5.4 秒 (gpt-4)。为优化交互体验,openai 在文本、视觉和音频方面训练了一个端到端新模型,这意味着所有输入和输出都由同一个神经网络处理,从而减少了信息丢失。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


性能方面,gpt-4o 能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,这与人类在对话中的反应时间相近。此外,gpt-4o 在英语和代码文本方面的性能与 gpt-4 turbo 相当,在非英语语言文本方面也有显著提高,改进了 50 种不同语言的质量和识别速度。同时,在 api 方面速度是原来的 2 倍,但价格却便宜 50%。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


此外,gpt-4o 的推理能力也有大幅提升,官方数据表示,gpt-4o 在 0-shot cot mmlu(常识题)中创造了 88.7% 的新高分。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


openai 的 william fedus 晒出了 gpt-4o 在 lmsys 榜单上的排名情况,团队给 gpt-4o 的命名也很有意思:im-also-a-good-gpt2-chatbot。



他还介绍道,在更难的提示集上、尤其是在编码能力上,gpt-4o 的水平比 openai 此前最先进的大模型高出 +100 elo。


william fedus 直言,gpt-4o 不仅是世界上最好的模型,而且在 chatgpt 中免费提供,这在前沿模型中开辟了先例。


在某种程度上,gpt-4o 可以看作是 openai 对于其「开源」产品的更新,而对于外界屡次诟病的「openai 不 open」,sam altman 也在其 blog 中表示:「openai 的使命之一就是免费(或以优惠价格)向人们提供功能强大的人工智能工具。我感到非常自豪的是,我们在 chatgpt 中免费提供了世界上最好的模型,没有广告或类似的东西。


对于 gpt-4o 的性能,sam altman 也毫不吝啬赞美之词:「新的语音(和视频)模式是我用过的最好的计算界面。它给人的感觉就像电影中的人工智能;而它的真实性仍然让我感到有些惊讶,其中的一个重要变化便是达到人类水平的响应时间和表现力。



随后,altman 还在其账号发布了「her」,也暗示了自己新版模型将开启「her 时代」。


值得注意的是,gpt-4o api 中并没有为所有客户提供语音功能。


openai 表示,gpt-4o 通过过滤训练数据和后期训练完善模型行为 (refining the model’s behavior through post-training) 等技术,在设计中就考虑到了各种模式的安全性,团队还创建了新的安全系统,从而为语音输出提供保护。


尽管如此,openai 还是以滥用风险为由表示,计划在未来几周内首先向 「一小部分可信赖的合作伙伴」推出对 gpt-4o 的新音频与视频功能。



而 gpt-4o 的文本和图像功能今天开始便会在 chatgpt 中推出。未来几周,openai 将在 chatgpt plus 中推出带有 gpt-4o 的新版语音模式 alpha。开发人员现在也可以在 api 中以文本和视觉模式访问 gpt-4o。

her 时代来了:chatgpt 有感情的语音交互

早在今年 2 月,前 openai 开发者关系负责人就提及,chatgpt 的终极形态不仅仅是聊天。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻

5 月 11 日,sam altman 也在一档播客节目中称,openai 将继续改进并提升 chatgpt 的语音功能质量,并表示语音交互是通向未来交互方式的一个重要途径。


在今天的发布会上,openai 也展示了其提升 chatgpt 语音质量的阶段性成果——基于 gpt-4o 实现了语音交互,且响应速度大幅提升。


具体而言,chatgpt 的升级更新主要体现在三个方面——实时交互、多模态输入输出、感知情绪。


在实时交互方面,在现场演示中,chatgpt 几乎可以即时回应提问者的所有问题,提问者如果出言打断 chatgpt 的回答,其也能够停下来。muri murati 还应现场观众的要求,展示了 gpt-4o 的实时翻译功能。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


多模态输入/输出则无需赘述,基于 gpt-4o 的 chatgpt 能够识别文本、语音与视觉信息,并根据需求以任一形式进行回答。


两个 chatgpt cosplay 客服与顾客对话


在感知情绪与情绪反馈方面,升级后的 chatgpt 能够根据人物自拍照,快速分析人物的面部情绪。同时还可以根据对话者的要求调整说话时的语气,从夸张戏剧到冰冷机械,甚至还可以唱歌,这展示了其出色的可塑性。


对此,muri murati 表示:「我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与 gpt 的协作,这一点非常重要。」


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


此外,在推理分析方面,gpt-4o 还改进了 chatgpt 的视觉功能。给它一张拍摄的照片,chatgpt 可以快速浏览图片的内容并回答相关问题,比如拍照解决数学问题。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


还可以根据分享的代码图片描述代码的具体内容,分析假若改变代码其中的一个变量,将会产生什么具体影响。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


给 gpt-4o 一个图表,它还能够对图表的内容进行具体分析。


GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了 - 天天要闻


openai 的这一创新尝试将 chatgpt 的应用横跨语音、文本和视觉,这预示着未来人机交互可能会更加自然和流畅。


对此,openai 表示,具有视觉和音频功能的 ai 语音助手具有像智能手机一样的变革性潜力,理论上它可以做到一系列现在的 ai 助手无法做到的事,比如充当论文、数学指导老师,或是翻译交通标识、帮助解决汽车故障等。

写在最后

从 gpt 横空出世以来,openai 一度被视为大模型时代的「风向标」。细数硅谷的传统巨头:


* 微软与 openai 的关系微妙,既是金主投资人,也在自家业务中部署了 gpt 模型,同时还为 openai 提供云服务; 
* 苹果今年开始在生成式 ai 上加大投入,并发布了自研大模型,但起步稍晚,能否撼动 openai 地位仍未可知,同时还有爆料称苹果已经要和 openai、谷歌在大模型上进行合作;

* 亚马逊作为全球最大的云基础设施提供商,虽然也推出了自家的大模型 amazon titan,但这只是其云托管服务 bedrock 的一部分,尽管亚马逊还投资了 anthropic,但目前看来还是难与 openai 抗衡。


一番对比,谷歌似乎是最有希望和 openai 掰掰手腕的企业,不仅有深厚的技术积累(transformer 架构便是出自谷歌),还有丰富的生态供大模型一展拳脚。


然而,关注谷歌的读者或许能够发现,这位老牌巨头在大模型时代有点「汪峰」体质了(狗头保命)——从 bard、palm 2 在性能上不及 gpt-4,到颠覆巨作 gemini 1.5 发布被 sora 抢热度,再到 3 月就定档的 google i/o 大会在最佳造势期被 openai 的一个「临时起意」的直播抢风头……


就在今天(5 月 14 日)凌晨,openai 祭出了「世界上最好的模型」,不知道劈柴哥看了今天的发布会,会不会连夜「改剧本」?


答案将在明天凌晨揭晓,期待谷歌能打一场「翻身仗」,hyperai超神经也将持续带来一手报道!

科技分类资讯推荐

最新消息!她已离职!曾凌晨发文道歉 - 天天要闻

最新消息!她已离职!曾凌晨发文道歉

本月初,百度副总裁璩静在短视频平台上发布的几条出镜视频引发网友关注,特别是其提到“员工闹分手提离职我秒批”等职场话题引发网友质疑,一度登上微博热搜。
淘宝取消“618”预售机制后,京东宣布“现货开卖” - 天天要闻

淘宝取消“618”预售机制后,京东宣布“现货开卖”

继5月7日天猫宣布取消“618”预售机制后,5月8日,京东也正式宣布“现货开卖”。今年京东618将于5月31日晚8点全面开启。据了解,现货开卖的同时,京东还将同步推出百亿补贴日活动。在6月2日、6月3日、6月8日,还将先后推出9.
细思极恐网络暴力和群殴 - 天天要闻

细思极恐网络暴力和群殴

互联网高速发展利用时代踏实做事和说实话的人都不被人待见,时时刻刻遭受网络暴力,声讨,群殴,格力电器董明珠,踏踏实实做企业,创税收,促进就业,,为国家为人民奉献大半辈子青春,心血, 汗水,本该退休安享晚年,侍弄儿孙遗憾找不到合适放心接班人,七
探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图 - 天天要闻

探秘vivo影像之美,与X系列技术沟通会共同见证卓越蓝图

前段时间的vivo X系列新品发布让我们记忆深刻,而刚刚结束结束的“影像新蓝图X系列技术沟通会”也十分精彩,这次沟通会不仅告诉了大家vivo在影像领域的最新成果,也让粉丝们对vivo影像背后的故事有更多了解,在vivo影像的发展历程中可以分成两方面,一方面,vivo通过自主研发,不断提升自身的影像技术实力,另一方面,vivo...
华为再次亮剑,鸿蒙系统亮点多多 - 天天要闻

华为再次亮剑,鸿蒙系统亮点多多

5月15日,华为夏季全场景新品发布会简直是一场视觉与科技的盛宴,看得我热血沸腾!不得不说,华为这次真的是大招频出,新品多到让人眼花缭乱!先说说那个华为MatePad 11.5 ” S吧,一亮相就让人眼前一亮!它的设计简约而不失时尚,屏幕清晰得让人仿佛置身其中。
【新机】升级了个寂寞?蓝厂新机发布 - 天天要闻

【新机】升级了个寂寞?蓝厂新机发布

昨天晚上蓝厂发布了新机iQOO Neo9s Pro,机子采用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭载天玑9300+,前置1600万像素,后置IMX920主摄+5000万超广角。电池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃后盖,颜值确实提升了不少。不过还是塑料中框+短焦指纹。12+256GB 2699元
AI Agent在哪些行业领域会产生影响? - 天天要闻

AI Agent在哪些行业领域会产生影响?

在如今飞速前进的科技浪潮中,人工智能(AI)技术的创新正以前所未有的速度重塑我们的生活和工作的每一个角落。在这一浪潮中,Agent AI智能体以其卓越的能力脱颖而出,它通过模拟人类智能行为,能够胜任一系列复杂任务,并在多个领域展现出了其无法替代的价值。