剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線

2025年05月29日14:22:11 科學 1015

機器之心報道

編輯:+0

又有一個 AI Scientist 的論文通過了頂會同行評審。

今天,Intology 宣布他們的 AI 科學家 Zochi 的論文被頂會 ACL 主會錄用,成為首個獨立通過 A* 級別科學會議同行評審的人工智慧系統 ,同時開放了 Zochi 的 Beta 測試。

Beta 註冊地址:https://docs.google.com/forms/d/e/1FAIpQLSeOMmImoaOchxihSkcBUNQIT65wq62AIHq8wfnyrK0ov4kTOg/viewform

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

近幾個月來,多個團隊已證明了人工智慧在研討會級別的會議上能做出貢獻,此前 Sakana 的 AI Scientist-v2 就以均分 6.25 通過了 ICLR 會議一個研討會的同行評審,詳見機器之心報道《AI 寫的論文能過審?雙盲評審 6.25 分,達到 ICLR 研討會水平》。

但論文被頂級科學會議的主會議錄用,則意味著跨越了一個高得多的門檻。

提交給 ICLR 2025 的研討會論文錄用率約為 60-70%,而像 ACL(以及 NeurIPS、ICML、ICLR、CVPR 等)這樣的頂級會議的主會議錄用率僅為 20% 左右。 ACL 是全球自然語言處理 (NLP) 領域排名第一的科學會議,在全球所有科學會議中排名前 40。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

此類頂級會議主會議的同行評審過程旨在進行高度篩選,對新穎性、技術深度和實驗嚴謹性都有著極為嚴格的標準。大多數計算機科學領域的博士生需要花費數年時間才能在同等聲望的會議上發表論文。

這使得 Zochi 成為首個達到博士級別的智能體:人工智慧系統首次獨立完成了科學發現,並將其發表在與該領域頂尖研究人員相當的水平上。

Tempest:基於樹搜索的大型語言模型自主多輪「越獄」

話不多說,我們先來看看這篇論文吧。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

  • 論文標題:Tempest: Automatic Multi-Turn Jailbreaking of Large Language Models with Tree Search
  • 論文地址:https://arxiv.org/pdf/2503.10619

該研究的前期版本(名稱為 Siege)曾被 ICLR 研討會接收。後續,Zochi 對其設計進行了修改,並為提交 ACL 進行了更廣泛的實驗。

這項研究的一個特點是其自主性程度:人類研究者僅設定了「開發新型『越獄』方法」的初始目標。Zochi 隨後獨立確定了多輪攻擊這一具體研究方向,設計了 Tempest 方法,編寫代碼並進行了測試,執行了所有實驗,並撰寫了論文草稿。人類的參與主要限於圖表創建和格式修訂。

該研究從分析「越獄」相關文獻開始,設計了一種基於樹搜索的方法。該方法利用並行探索同時擴展多個對抗性提示分支,並集成了跨分支學習和部分合規跟蹤功能。系統自主實現了 Tempest,並在多個大型語言模型上進行了評估。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

評估結果顯示,Tempest 在 GPT-3.5-turbo 上的成功率為 100%,在 GPT-4 上的成功率為 97%。與所比較的單輪和多輪基線方法相比,Tempest 在使用較少查詢次數的情況下達到了更高的成功率。

這項工作的結果提示,語言模型的安全措施可能通過多輪對話被系統性地繞過,其中逐步的策略性互動可能導致模型產生原本被限制的輸出。這些發現反映了當前安全機制中可能存在的某些不足,並為研究更有效的多輪對抗攻擊防禦策略提供了數據和視角。

批評風波

2025 年 3 月 18 日,Intology 宣布推出了 Zochi, 並稱其為世界上第一位 「做出最先進貢獻」的 AI Scientist,它的研究成果已被 ICLR 2025 研討會接收。

Intology 官網:https://www.intology.ai/

通過標準化的自動審稿人評估,Zochi 的論文平均得分為 7.67 分,而其他由人工智慧系統生成的公開論文得分在 3 到 4 分之間。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

但 Intology 很快就陷入了批評風波。Sakana、Intology 和 Autoscience 都聲稱其使用 AI 生成的研究被 ICLR 接受,但只有 Sakana 在提交其 AI 生成的論文之前向 ICLR 領導通報了此事,並獲得了同行評審者的同意。

幾位 AI 學術界人士在社交媒體上批評了 Intology 和 Autoscience 的行為,認為這是對科學同行評審過程的濫用。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

關於 Zochi

Zochi 是一個 AI research agent,能夠自主完成從文獻分析 到同行評審出版 的整個科學研究過程。該系統通過一個旨在模擬科學方法的多階段流水線進行運作。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

  • 技術報告:https://github.com/IntologyAI/Zochi/blob/main/Zochi_Technical_Report.pdf
  • 代碼:https://github.com/IntologyAI/Zochi

Zochi 的工作成果

  • 通過正交知識空間實現高效模型自適應

為解決模型微調(PEFT)中的「跨技能干擾」問題,Zochi 提出了 CS-ReFT。該方法創新地通過學習「正交子空間表徵」來編輯模型行為,而非修改權重。這使得 Llama-2-7B 僅用 0.0098% 的參數就實現了 93.94% 的 AlpacaEval 勝率,超越了 GPT-3.5-Turbo,並獲得了同行的高度評價。

  • 通過自主多輪紅隊測試發現 AI 漏洞

在 AI 安全方面,Zochi 開發了 Siege 框架,利用樹搜索演算法進行高效的「多輪越獄」攻擊。通過識別並利用 LLM 的「部分遵從」漏洞,Siege 對 GPT-3.5 和 GPT-4 實現了極高的攻擊成功率(100%/97%),提示需要重新評估現有防禦策略。其擴展工作已被 ACL 2025 接收。

  • 計算生物學進展(EGNN-Fusion)

Zochi 將 AI 技術應用於計算生物學,推出了 EGNN-Fusion,用於預測蛋白質 - 核酸結合位點。該方法在保持頂尖性能的同時,將參數數量銳減了 95%,證明了 Zochi 在解決複雜跨學科科學問題方面的強大實力和多功能性。

評估結果

與所有基線系統相比,Zochi 持續產出更高質量的研究論文。在使用基於 NeurIPS 會議指南的自動審稿人進行評估時,Zochi 的論文獲得了 8、8 和 7 的高分,均遠高於頂級機器學習會議平均錄用論文 6 分的接收門檻。

相比之下,其他 AI 系統的論文得分要低得多,平均約為 4 分。考慮到每個系統處理的問題複雜性存在巨大差異,這種評估差距尤其顯著。基線系統專註於相對受限的問題 —— 例如二維擴散模型、玩具規模的語言模型或特定的認知偏差 —— 而 Zochi 則致力於解決開放式挑戰,提出新穎且可驗證的最先進方法。

剛剛,AI科學家Zochi在ACL「博士畢業」,Beta測試今日上線 - 天天要聞

作為一項探索性練習,Zochi 在 MLE-Bench 的部分基於 Kaggle 的挑戰上進行了評估,以考察其在傳統機器學習工程任務上的表現。在沒有任何任務特定優化的情況下,Zochi 達到了最先進水平,在 80% 的任務上超過了人類表現中位數,並在 50% 的任務中獲得獎牌。這些成果超過了之前的基準測試,如 Agent Laboratory、AIDE 和 OpenHands,進一步突顯了 Zochi 核心能力的穩健性和適應性。

科學分類資訊推薦

當藝術設計遇見人工智慧 - 天天要聞

當藝術設計遇見人工智慧

作者:柳冠中(清華大學首批文科資深教授)在人類文明發展的歷史長河中,工業革命無疑是一個重要的轉折點。它不僅徹底改變了人類的生產方式,更重塑了我們的思維模式和價值觀念。今天,當我們站在人工智慧技術革命的門檻上,「人工智慧藝術設計新邏輯」叢書的
萬物和美,這生命圖景如此靈動 - 天天要聞

萬物和美,這生命圖景如此靈動

【美麗中國大寫意】編者按:晨曦中的海南長臂猿啼破雨林,山林間的豹貓輕盈跳躍,紅外相機記錄下野生大熊貓母子同框,野生江豚躍出水面、與浪花共舞……這些靈動的生命圖景,正是我國生物多樣性保護的鮮活註腳。5月22日是第25個國際生物多樣性日,主題為
銀河系內發現不明物體同時發射X射線和無線電波 - 天天要聞

銀河系內發現不明物體同時發射X射線和無線電波

一個國際研究小組發現了一個前所未有的宇宙異常現象。該物體位於我們銀河系內,距離我們約15000光年,它同時發射無線電波和X射線。這顆天體被命名為ASKAP J1832- 0911,最初是由天文學家利用位於澳大利亞的射電望遠鏡——澳大利亞平方
超10萬人同台競爭!武漢三名高職生拿下全球一等獎 - 天天要聞

超10萬人同台競爭!武漢三名高職生拿下全球一等獎

「在全球10萬參賽者的激烈角逐中,我們最終拿到一等獎,心情無比激動!」5月28日,武漢軟體工程職業學院計算機學院的大三學生陳家明在接受長江雲新聞記者採訪時,仍難掩興奮之情。在剛剛落幕的第九屆華為ICT大賽全球總決賽中,他與隊友侯昆朋、吳暢共同斬獲實踐賽網路賽道全球總決賽一等獎。華為ICT大賽分為實踐賽、創新賽...
長征三號點火升空,送天問二號探測器精準入軌 - 天天要聞

長征三號點火升空,送天問二號探測器精準入軌

美國一門心思,想把單極霸權搬到外太空,但從現實情況而言,這簡直是難如登天,尤其是在中國航天技術快速崛起的背景下。 (天問二號探測器的發射任務,於5月29日在西昌衛星發射中心成功執行) ....
疑似新款極氪007實車曝光 延續極氪007 GT設計語言 - 天天要聞

疑似新款極氪007實車曝光 延續極氪007 GT設計語言

近日,一組疑似新款極氪007的實車圖在網路上曝光。新車外觀沿用家族中極氪007 GT的設計語言,車漆顏色更艷麗,預計會在今年三季度上市。外觀方面,此次曝光的實車圖,只展示新款極氪007的車頭部分。新車的前包圍造型幾乎是極氪007 GT的翻版,繼續配備互動式貫穿燈組,風擋玻璃頂部配備了激光雷達。新車輪轂的樣式有所改變,...
與華能同行:從「封碳」到「探熱」的雙碳之路 - 天天要聞

與華能同行:從「封碳」到「探熱」的雙碳之路

2022年初秋,我攥著博士學位證書踏入華能清能院的大門。彼時,我對「雙碳」的理解仍停留在論文中的數學模型與數據討論,直到站在溫室氣體減排實驗室里,看到銀灰色管道中流動的二氧化碳被相變吸收劑「馴服」,聽到實驗屏上數據跳動的嗡鳴聲,才真正觸摸到
5·30丨2025年陝西省科普教育基地科普講解大賽成功舉辦 - 天天要聞

5·30丨2025年陝西省科普教育基地科普講解大賽成功舉辦

5月23日,以「科技賦能未來 科普傳遞力量」為主題的2025年陝西省科普教育基地科普講解大賽暨陝西省科普講解大賽預賽在西安理工大學曲江校區成功舉辦。本次大賽由陝西省科學技術協會主辦,陝西省科普宣傳教育中心承辦,西安理工大學協辦。