刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线

2025年05月29日14:22:11 科学 1015

机器之心报道

编辑:+0

又有一个 AI Scientist 的论文通过了顶会同行评审。

今天,Intology 宣布他们的 AI 科学家 Zochi 的论文被顶会 ACL 主会录用,成为首个独立通过 A* 级别科学会议同行评审的人工智能系统 ,同时开放了 Zochi 的 Beta 测试。

Beta 注册地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62AIHq8wfnyrK0ov4kTOg/viewform

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

近几个月来,多个团队已证明了人工智能在研讨会级别的会议上能做出贡献,此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通过了 ICLR 会议一个研讨会的同行评审,详见机器之心报道《AI 写的论文能过审?双盲评审 6.25 分,达到 ICLR 研讨会水平》。

但论文被顶级科学会议的主会议录用,则意味着跨越了一个高得多的门槛。

提交给 ICLR 2025 的研讨会论文录用率约为 60-70%,而像 ACL(以及 NeurIPS、ICML、ICLR、CVPR 等)这样的顶级会议的主会议录用率仅为 20% 左右。 ACL 是全球自然语言处理 (NLP) 领域排名第一的科学会议,在全球所有科学会议中排名前 40。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

此类顶级会议主会议的同行评审过程旨在进行高度筛选,对新颖性、技术深度和实验严谨性都有着极为严格的标准。大多数计算机科学领域的博士生需要花费数年时间才能在同等声望的会议上发表论文。

这使得 Zochi 成为首个达到博士级别的智能体:人工智能系统首次独立完成了科学发现,并将其发表在与该领域顶尖研究人员相当的水平上。

Tempest:基于树搜索的大型语言模型自主多轮“越狱”

话不多说,我们先来看看这篇论文吧。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

  • 论文标题:Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search
  • 论文地址:https://arxiv.org/pdf/2503.10619

该研究的前期版本(名称为 Siege)曾被 ICLR 研讨会接收。后续,Zochi 对其设计进行了修改,并为提交 ACL 进行了更广泛的实验。

这项研究的一个特点是其自主性程度:人类研究者仅设定了“开发新型‘越狱’方法”的初始目标。Zochi 随后独立确定了多轮攻击这一具体研究方向,设计了 Tempest 方法,编写代码并进行了测试,执行了所有实验,并撰写了论文草稿。人类的参与主要限于图表创建和格式修订。

该研究从分析“越狱”相关文献开始,设计了一种基于树搜索的方法。该方法利用并行探索同时扩展多个对抗性提示分支,并集成了跨分支学习和部分合规跟踪功能。系统自主实现了 Tempest,并在多个大型语言模型上进行了评估。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

评估结果显示,Tempest 在 GPT-3.5-turbo 上的成功率为 100%,在 GPT-4 上的成功率为 97%。与所比较的单轮和多轮基线方法相比,Tempest 在使用较少查询次数的情况下达到了更高的成功率。

这项工作的结果提示,语言模型的安全措施可能通过多轮对话被系统性地绕过,其中逐步的策略性互动可能导致模型产生原本被限制的输出。这些发现反映了当前安全机制中可能存在的某些不足,并为研究更有效的多轮对抗攻击防御策略提供了数据和视角。

批评风波

2025 年 3 月 18 日,Intology 宣布推出了 Zochi, 并称其为世界上第一位 “做出最先进贡献”的 AI Scientist,它的研究成果已被 ICLR 2025 研讨会接收。

Intology 官网:https://www.intology.ai/

通过标准化的自动审稿人评估,Zochi 的论文平均得分为 7.67 分,而其他由人工智能系统生成的公开论文得分在 3 到 4 分之间。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

但 Intology 很快就陷入了批评风波。Sakana、Intology 和 Autoscience 都声称其使用 AI 生成的研究被 ICLR 接受,但只有 Sakana 在提交其 AI 生成的论文之前向 ICLR 领导通报了此事,并获得了同行评审者的同意。

几位 AI 学术界人士在社交媒体上批评了 Intology 和 Autoscience 的行为,认为这是对科学同行评审过程的滥用。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

关于 Zochi

Zochi 是一个 AI research agent,能够自主完成从文献分析 到同行评审出版 的整个科学研究过程。该系统通过一个旨在模拟科学方法的多阶段流水线进行运作。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

  • 技术报告:https://github.com/IntologyAI/Zochi/blob/main/Zochi_Technical_Report.pdf
  • 代码:https://github.com/IntologyAI/Zochi

Zochi 的工作成果

  • 通过正交知识空间实现高效模型自适应

为解决模型微调(PEFT)中的“跨技能干扰”问题,Zochi 提出了 CS-ReFT。该方法创新地通过学习“正交子空间表征”来编辑模型行为,而非修改权重。这使得 Llama-2-7B 仅用 0.0098% 的参数就实现了 93.94% 的 AlpacaEval 胜率,超越了 GPT-3.5-Turbo,并获得了同行的高度评价。

  • 通过自主多轮红队测试发现 AI 漏洞

在 AI 安全方面,Zochi 开发了 Siege 框架,利用树搜索算法进行高效的“多轮越狱”攻击。通过识别并利用 LLM 的“部分遵从”漏洞,Siege 对 GPT-3.5 和 GPT-4 实现了极高的攻击成功率(100%/97%),提示需要重新评估现有防御策略。其扩展工作已被 ACL 2025 接收。

  • 计算生物学进展(EGNN-Fusion)

Zochi 将 AI 技术应用于计算生物学,推出了 EGNN-Fusion,用于预测蛋白质 - 核酸结合位点。该方法在保持顶尖性能的同时,将参数数量锐减了 95%,证明了 Zochi 在解决复杂跨学科科学问题方面的强大实力和多功能性。

评估结果

与所有基线系统相比,Zochi 持续产出更高质量的研究论文。在使用基于 NeurIPS 会议指南的自动审稿人进行评估时,Zochi 的论文获得了 8、8 和 7 的高分,均远高于顶级机器学习会议平均录用论文 6 分的接收门槛。

相比之下,其他 AI 系统的论文得分要低得多,平均约为 4 分。考虑到每个系统处理的问题复杂性存在巨大差异,这种评估差距尤其显著。基线系统专注于相对受限的问题 —— 例如二维扩散模型、玩具规模的语言模型或特定的认知偏差 —— 而 Zochi 则致力于解决开放式挑战,提出新颖且可验证的最先进方法。

刚刚,AI科学家Zochi在ACL“博士毕业”,Beta测试今日上线 - 天天要闻

作为一项探索性练习,Zochi 在 MLE-Bench 的部分基于 Kaggle 的挑战上进行了评估,以考察其在传统机器学习工程任务上的表现。在没有任何任务特定优化的情况下,Zochi 达到了最先进水平,在 80% 的任务上超过了人类表现中位数,并在 50% 的任务中获得奖牌。这些成果超过了之前的基准测试,如 Agent Laboratory、AIDE 和 OpenHands,进一步突显了 Zochi 核心能力的稳健性和适应性。

科学分类资讯推荐

张礼和:药学路上的探索与坚守 - 天天要闻

张礼和:药学路上的探索与坚守

转自:光明日报学人小传张礼和,1937年出生于江苏扬州。中国科学院院士,北京大学药学院教授,我国著名药物化学家和化学生物学家,化学生物学学科主要倡导及开创者。1958年毕业于北京医学院(后更名为北京医科大学,现北京大学医学部)药学系。
伊朗炼油厂氮气罐发生爆炸 - 天天要闻

伊朗炼油厂氮气罐发生爆炸

6月29日,据Mehr通讯社报道,伊朗西北部东阿塞拜疆省大不里士市一家炼油厂的一个装置中的氮气罐发生爆炸。 消息称:“大不里士炼油厂在建的一处装置上的氮气储罐发生爆炸,导致炼油厂周围发出爆....
研究发现海洋颜色变了,两极变得更绿,赤道附近更蓝 - 天天要闻

研究发现海洋颜色变了,两极变得更绿,赤道附近更蓝

据参考消息美国广播公司网站日前报道,一项新研究称,海水变暖正在导致海洋颜色发生变化——如果这种趋势持续下去,可能对人类产生影响。一篇发表在美国《科学》周刊上的一篇论文称,卫星数据显示,靠近地球两极的海水越来越绿,而赤道附近的海水则越来越蓝。该论文的第一作者、博士后研究员赵海鹏(音)表示,这一色调变化...
黄旭华院士今日在汕尾安葬,大女儿追忆父亲:一直惦记着家乡,终于实现了想回家的心愿 - 天天要闻

黄旭华院士今日在汕尾安葬,大女儿追忆父亲:一直惦记着家乡,终于实现了想回家的心愿

极目新闻记者 杨锦英 刘子靓 王俐燃 涂梦蝶6月29日,中国工程院院士,共和国勋章、国家最高科学技术奖获得者,全国道德模范,中国第一代核潜艇工程总设计师黄旭华的骨灰安放仪式在其家乡广东省汕尾市红海湾经济开发区举行。当天上午9时,人们在黄旭华院士少年时代求学成长的红楼前举行了追思仪式。现场,黄旭华院士的遗像摆...
构建科幻文学研究体系,探讨人工智能时代科幻未来学 - 天天要闻

构建科幻文学研究体系,探讨人工智能时代科幻未来学

6月28日,《科幻文学研究手册》新书首发暨读者见面会在深圳书城·中心城举行。《科幻文学研究手册》由南方科技大学人文科学中心教授、科学与人类想象力研究中心主任吴岩教授主编,2025年3月于重庆大学出版社正式出版。该书构建了科幻文学研究的完整知识体系,兼具资料性与工具性。《科幻文学研究手册》新书首发暨读者见面会...
张益唐加盟中山大学,“打零工”的简历引关注 - 天天要闻

张益唐加盟中山大学,“打零工”的简历引关注

近日,世界著名数学家张益唐全职加盟中山大学的消息引起国内科学界广泛关注。根据中山大学发布的消息,张益唐受聘于中山大学香港高等研究院,将在大湾区定居和工作。该消息还特别提到,张益唐此次已举家搬迁回国。澎湃新闻记者注意到,在张益唐回国任教的同时
我国农村常见的十大蜻蜓,有你小时候的玩伴吗? - 天天要闻

我国农村常见的十大蜻蜓,有你小时候的玩伴吗?

我国常见的十大蜻蜓,有没有你童年的回忆?蜻蜓是现存地球上最古老的生物之一,是蜻蜓木昆虫的总称,包括婧类和挺类。通常被认为是益虫,是肉食性昆虫,能够捕食蚊子和其他昆虫幼虫。其尾如青葱,并且喜好高而挺拔,故名"蜻蜓"。·第五,大团扇春蜓,又称"
和众汇富1980靠谱吗?提升自我认知 回归理性轨道 - 天天要闻

和众汇富1980靠谱吗?提升自我认知 回归理性轨道

在投资市场摸索的那些年,我以为知识、消息和技巧才是炒股的全部。每天拼命学习新战法、关注财经新闻、分析各种技术指标,但账户依然反复起伏。直到有一天,我才开始反思,是不是自己对投资的认知和定位出了问题?为什么同样的行情,有人能安然度过,而我总是跟着情绪乱跑? 回想刚入市那会儿,我把每一次波动都当成信号,...