AI来玩超级马里奥,ChatGPT惨败,推理型容易反应慢

2025年03月08日18:43:09 科学 1488

近日,美国加州大学圣地亚哥分校的研究机构Hao AI Lab,将几款人工智能(AI)引入超级马里奥游戏中,看看这些AI们玩得好不好。

AI来玩超级马里奥,ChatGPT惨败,推理型容易反应慢 - 天天要闻

其中,美国人工智能初创公司Anthropic发布Claude 3.7表现最好,其次是Claude 3.5。谷歌的Gemini 1.5 Pro 和Open AI 的 ChatGPT 4.0苦苦挣扎。

研究团队内部开发的GamingAgent,为AI提供基本指令,例如“如果附近有障碍物或敌人,请向左移动或者跳跃以躲避”。AI则以Python代码的形式生成输入来控制马里奥。

有趣的是,实验室发现,像ChatGPT这样的推理模型,即逐步“思考”问题以得出解决方案,表现得比“非推理”模型差,尽管它们通常在大多数基准测试中更强。

研究人员表示,推理模型在玩这类游戏时遇到困难的主要原因是,它们需要一段时间(通常是几秒钟)来决定行动。

但在《超级马里奥兄弟》中,时间就是一切,一秒钟可能意味着安全完成跳跃和坠落致死之间的区别。

几十年来,游戏一直被用来对 AI 进行基准测试。但一些专家质疑,他他们认为将人工智能的游戏技能和技术进步联系起来是否明智。

编译/潇湘晨报记者傅圆圆

报料、维权通道:应用市场下载“晨视频”客户端,搜索“报料”一键直达;或微信添加报料客服:xxcbcsp;或拨打热线0731-85571188。如需内容合作,请拨打政企服务专席19176699651。

科学分类资讯推荐

进口原木里竟爬出4只毒蜘蛛!海关紧急拦截,其中一种毒液可致人中毒 - 天天要闻

进口原木里竟爬出4只毒蜘蛛!海关紧急拦截,其中一种毒液可致人中毒

近日,广州海关所属佛山海关关员在对2批进口原木进行查验时,发现集装箱内壁附着不少蜘蛛网。经进一步检查,现场关员在集装箱内截获4只活体蜘蛛。经送技术机构鉴定,确认上述蜘蛛为1只阿根廷啡黄蜘蛛和3只库拉卡维寇蛛,均属于外来物种。其中库拉卡维寇蛛属于有毒蜘蛛,其毒液含有神经毒素,被咬伤后可能会引起局部红肿和全...
中国芯片设备进口狂潮背后:买得越多,卡得越紧? - 天天要闻

中国芯片设备进口狂潮背后:买得越多,卡得越紧?

最近跟朋友聊起芯片产业,有个数字让我惊掉下巴——2024年全球芯片设备卖了1171.4亿美元,光咱们中国就买走了495.5亿,占比超过四成!这相当于全球每卖出三台造芯片的机器,就有一台是运往中国内地的。但细想之下,这个数字既让人振奋,又让人
卡式炉爆炸,多人被严重烫伤!紧急提醒 - 天天要闻

卡式炉爆炸,多人被严重烫伤!紧急提醒

最近不少人外出露营卡式炉成了必备品但千万要注意使用安全!5月3日北京一起卡式炉爆炸事故7人受伤登上热搜引发关注据媒体报道,北京的陈先生与邻居两家人五一假期在野外烧烤时,刚购入一个月、仅使用过两次的卡式炉突然爆炸,导致7人不同程度受伤,部分伤
颜宁再次打假:科学家不需要“完美人设” | 新京报快评 - 天天要闻

颜宁再次打假:科学家不需要“完美人设” | 新京报快评

▲颜宁在其微博发布声明,辟谣网传简历。图/颜宁微博截图知名科学家颜宁再次公开打假,打假的对象仍是假简历。据报道,5月4日,颜宁在其微博上发帖辟谣,“一份不知道谁缺乏常识造出来的真真假假的简历从前年就开始流传,哪怕也许出于好心,也是不对的,已被我投诉掉了,不知道为啥现在又被翻出来”。并请微博节后尽快清理...
人工智能还将带来多少可能? - 天天要闻

人工智能还将带来多少可能?

原创 黄鑫 经济日报与大模型对话,生成一件大师风格画作;依托人工智能技术规划路线,具身智能机器人可精准识别和抓取零部件……日前举办的第八届数字中国建设峰会集中展示了多项新技术新成果,生动展现了数字经济的澎湃活力,而人工智能技术在其中扮演着激