2022年底,能够与人类自如、深度对话的聊天机器人chatgpt一经发布,便在全球掀起火热的生成式ai浪潮。而早在2013年,百度就成立了深度学习实验室,是国内最早入局ai领域的企业,赶在了其他同行之前。11月12日,在百度世界2024大会上发表演讲时,百度创始人李彦宏却抛出了一个现实的问题:“客观地讲,大家期待的超级应用还没有出现,甚至有人开始问,过去这24个月,这种全球性的大模型狂热,究竟是一场新的技术革命,还是新一轮泡沫?”作为中国人工智能的扛旗者,百度给出的回答是:ai是真实的需求。李彦宏提到,今年5月,百度的高管们曾在一起讨论ai大模型怎样才算“成了”。他给出的关键指标是,大模型api调用量能够在一年时间内从2亿上涨10倍至20亿。而仅仅半年之后,百度文心大模型的日均调用量已经超过15亿,增长了7.5倍。相较于一年前首次披露的5000万次,更是大幅增长约30倍。在李彦宏看来,这条陡峭的增长曲线也是过去两年中国大模型应用爆发的缩影。“今天,基础模型能力就绪,我们即将迎来ai应用的群星闪耀时刻。每一个应用都是一颗星,每一个应用都将成为改变世界的力量。”他表示。李彦宏的“非主流”ai观:优先解决幻觉、重点发展智能体和ai行业的其他玩家相比,李彦宏和百度在很多时候都显得有些“非主流”。当许多公司陷入“百模大战”的厮杀中,把关注焦点放在大模型的性能和参数上时,李彦宏在多个公开场合反复强调“要卷应用不要卷大模型”、“没有应用ai模型一文不值”。面对开闭源之争,李彦宏又旗帜鲜明地站到闭源模型阵营中,称闭源才有真正的商业模式。今年2月,openai亮出文生视频模型sora再次引爆全球互联网,很多中国企业也纷纷开始跟进这一赛道。但李彦宏在一场内部讲话中表态称,无论多么火爆,百度都不会去做sora类的视频生成模型,因为投入周期太长,10年、20年都可能拿不到业务收益。在百度世界2024大会上,李彦宏对此进一步作出阐释。他表示比起sora,百度更希望解决图像生成的幻觉问题,即大模型的生成内容与事实不符或毫无根据。李彦宏称,“这个问题看起来更简单、甚至更枯燥,但是不解决就不会有应用。”他认为,过去24个月内,对行业而言最大的变化就是大模型基本消除了幻觉,回答问题的准确性大大提升,让ai从“一本正经的胡说八道”,变得可用、可被信赖。而解决大模型幻觉问题的关键在于rag(检索增强)技术,让大模型利用检索到的信息来指导文本或答案的生成。在当日与硅星人创始人骆轶航、甲子光年创始人张一甲的“ai圆桌对谈”上,李彦宏提到,过去两年rag让大语言模型具备了实用价值,可以有效控制幻觉生成,所以才在各个场景尤其是to b方面应用起来。他强调,百度不做sora不等于百度不做多模态,“多模态要想进入真正实用阶段,也得有准确性、可控性,应用空间才能打开。”因此百度瞄准了图像等多模态内容与rag的结合,在活动上发布了检索增强的文生图技术irag(image based rag)。irag能够结合百度搜索的亿级图片资源跟强大的基础模型能力,生成各种超真实的图片。李彦宏现场展示了一幅由文心大模型生成的大众揽巡汽车飞跃长城的图片。通过文心irag技术,无论是这款特定型号汽车的车型车标、还是作为背景的长城,均未出现错误或变形的幻觉问题。借助这项技术,以前需要花费几十万才能完成的海报拍摄,现在的创作成本近乎于0。其商业价值就体现在无幻觉、超真实、没成本,立等可取。随着全球科技巨头将目光转向寻找ai落地应用场景,智能体这一能够自主感知环境、执行行动并完成设定目标的系统也受到了更多关注。但李彦宏强调,像百度这样把智能体作为最重要战略方向的并不多。百度认为,作为ai应用的最主流形态,智能体即将迎来爆发点。目前,百度旗下文心智能体平台已吸引15万家企业和80万名开发者,覆盖了广泛的应用场景。百度将智能体主要分为四类:公司类智能体,角色类智能体,工具类智能体和行业类智能体。具体而言,公司类智能体能够在传统公司网站的基础上提供主动推荐等服务,未来将可能成为直接面向消费者的第一界面。角色类智能体是高度拟人化的数字人,行业类智能体则专注于法律等垂直领域。百度文库与百度网盘还联合发布了工具类智能体“自由画布”,全面打通公域与私域资料的限制,实现输入、编辑、创作、分享自由。