AI來玩超級馬里奧,ChatGPT慘敗,推理型容易反應慢

2025年03月08日18:43:09 科學 1488

近日,美國加州大學聖地亞哥分校的研究機構Hao AI Lab,將幾款人工智能(AI)引入超級馬里奧遊戲中,看看這些AI們玩得好不好。

AI來玩超級馬里奧,ChatGPT慘敗,推理型容易反應慢 - 天天要聞

其中,美國人工智能初創公司Anthropic發佈Claude 3.7表現最好,其次是Claude 3.5。谷歌的Gemini 1.5 Pro 和Open AI 的 ChatGPT 4.0苦苦掙扎。

研究團隊內部開發的GamingAgent,為AI提供基本指令,例如「如果附近有障礙物或敵人,請向左移動或者跳躍以躲避」。AI則以Python代碼的形式生成輸入來控制馬里奧。

有趣的是,實驗室發現,像ChatGPT這樣的推理模型,即逐步「思考」問題以得出解決方案,表現得比「非推理」模型差,儘管它們通常在大多數基準測試中更強。

研究人員表示,推理模型在玩這類遊戲時遇到困難的主要原因是,它們需要一段時間(通常是幾秒鐘)來決定行動。

但在《超級馬里奧兄弟》中,時間就是一切,一秒鐘可能意味着安全完成跳躍和墜落致死之間的區別。

幾十年來,遊戲一直被用來對 AI 進行基準測試。但一些專家質疑,他他們認為將人工智能的遊戲技能和技術進步聯繫起來是否明智。

編譯/瀟湘晨報記者傅圓圓

報料、維權通道:應用市場下載「晨視頻」客戶端,搜索「報料」一鍵直達;或微信添加報料客服:xxcbcsp;或撥打熱線0731-85571188。如需內容合作,請撥打政企服務專席19176699651。

科學分類資訊推薦

進口原木里竟爬出4隻毒蜘蛛!海關緊急攔截,其中一種毒液可致人中毒 - 天天要聞

進口原木里竟爬出4隻毒蜘蛛!海關緊急攔截,其中一種毒液可致人中毒

近日,廣州海關所屬佛山海關關員在對2批進口原木進行查驗時,發現集裝箱內壁附着不少蜘蛛網。經進一步檢查,現場關員在集裝箱內截獲4隻活體蜘蛛。經送技術機構鑒定,確認上述蜘蛛為1隻阿根廷啡黃蜘蛛和3隻庫拉卡維寇蛛,均屬於外來物種。其中庫拉卡維寇蛛屬於有毒蜘蛛,其毒液含有神經毒素,被咬傷後可能會引起局部紅腫和全...
中國芯片設備進口狂潮背後:買得越多,卡得越緊? - 天天要聞

中國芯片設備進口狂潮背後:買得越多,卡得越緊?

最近跟朋友聊起芯片產業,有個數字讓我驚掉下巴——2024年全球芯片設備賣了1171.4億美元,光咱們中國就買走了495.5億,佔比超過四成!這相當於全球每賣出三台造芯片的機器,就有一台是運往中國內地的。但細想之下,這個數字既讓人振奮,又讓人
卡式爐爆炸,多人被嚴重燙傷!緊急提醒 - 天天要聞

卡式爐爆炸,多人被嚴重燙傷!緊急提醒

最近不少人外出露營卡式爐成了必備品但千萬要注意使用安全!5月3日北京一起卡式爐爆炸事故7人受傷登上熱搜引發關注據媒體報道,北京的陳先生與鄰居兩家人五一假期在野外燒烤時,剛購入一個月、僅使用過兩次的卡式爐突然爆炸,導致7人不同程度受傷,部分傷
顏寧再次打假:科學家不需要「完美人設」 | 新京報快評 - 天天要聞

顏寧再次打假:科學家不需要「完美人設」 | 新京報快評

▲顏寧在其微博發佈聲明,闢謠網傳簡歷。圖/顏寧微博截圖知名科學家顏寧再次公開打假,打假的對象仍是假簡歷。據報道,5月4日,顏寧在其微博上發帖闢謠,「一份不知道誰缺乏常識造出來的真真假假的簡歷從前年就開始流傳,哪怕也許出於好心,也是不對的,已被我投訴掉了,不知道為啥現在又被翻出來」。並請微博節後儘快清理...