成功率提高7倍!新方法一句話就能讓AI秒出分子設計+合成步驟

2025年04月12日13:32:13 科技 1046

成功率提高7倍!新方法一句話就能讓AI秒出分子設計+合成步驟 - 天天要聞

(來源:MIT News)


尋找具備研發新藥物和新材料所需特性分子的過程既繁瑣又昂貴,需要耗費大量計算資源,研究人員往往要花費數月時間,才能在浩如煙海的候選分子中篩選出數量有限的目標分子。


像 ChatGPT 這樣的大語言模型有望簡化這一流程,然而,讓大語言模型像理解句子中的單詞那樣理解和推理構成分子的原子與化學鍵卻存在技術壁壘。


近期,麻省理工學院和 MIT-IBM 沃森人工智能實驗室的研究人員開發出一種頗具前景的方法,利用基於圖的模型(Graph-based Model)來增強大語言模型(這些模型專為生成和預測分子結構而設計)。


該方法通過基礎大語言模型解析用戶自然語言需求後,能在分子設計、原理闡釋及合成路線規劃等環節智能切換 AI 模塊。


它將文本、圖形和合成步驟生成交織在一起,把單詞、圖形和反應整合為一個通用詞彙表,供大語言模型使用,實現多模態信息無縫銜接。


與現有的基於大語言模型的方法相比,這種多模態技術生成的分子更符合用戶設定的規格,有效合成方案成功率從 5% 提升至 35%


該方法的效果優於規模比它大 10 倍以上、僅使用文本表示來設計分子和合成路線的大語言模型,這表明多模態融合是新系統成功的關鍵。


「這有望成為一個『端到端』的解決方案,能實現分子設計與合成全過程的自動化。如果大語言模型能在幾秒鐘內給出答案,將為製藥公司節省大量時間。」麻省理工學院研究生、該技術論文的合作者 Michael Sun 說道。


這項研究成果將在國際學習表徵會議上發表。論文的合作者還包括聖母大學研究生 Gang Liu、麻省理工學院電氣工程與計算機科學教授 Wojciech Matusik,以及 MIT-IBM 沃森人工智能實驗室資深科學家 Jie Chen。這項研究部分由美國國家科學基金會、海軍研究辦公室以及 MIT-IBM 沃森人工智能實驗室資助。



成功率提高7倍!新方法一句話就能讓AI秒出分子設計+合成步驟 - 天天要聞

優勢互補


大型語言模型並非為理解化學的微妙之處而設計,這也是它們難以進行逆向分子設計的原因之一。逆向分子設計是指識別具有特定功能或特性的分子結構的過程。


大語言模型將文本轉換為一種名為標記的表示形式,用於按順序預測句子中的下一個單詞。但分子是由原子和化學鍵組成的「圖形結構」,不存在特定順序,這使得它們很難編碼為順序文本。


另一方面,基於圖的模型將原子和分子鍵表示為圖形中相互連接的節點和邊。儘管這些模型在逆向分子設計中應用廣泛,但它們需要複雜的輸入,無法理解自然語言,且生成的結果可能難以解釋。


麻省理工學院的研究人員將大語言模型與基於圖的模型整合到一個統一框架中,實現了優勢互補。


Llamole(Large Language Model for Molecule Discovery,分子發現大型語言模型)利用基礎大語言模型作為「智能調度員」,理解用戶的查詢,即用戶用通俗語言對具有特定屬性分子的需求。


例如,用戶在尋找一種分子量為 209、具有特定鍵特性,且能穿透血腦屏障並抑制 HIV 的分子。


當大語言模型響應用戶查詢預測文本時,系統會通過獨特的「觸發令牌」機制,在三大功能模塊間智能切換:1、結構生成模塊(基於圖擴散模型,根據輸入條件構建分子骨架);2、語義轉換模塊(通過圖神經網絡將分子結構重新編碼為大語言模型可理解的詞元);3、合成規劃模塊(根據中間體結構預測反應路徑,逆向推導從基礎原料到目標分子的完整合成方案)。


「這樣做的精妙之處在於模塊間的信息閉環,大語言模型在激活特定模塊前生成的所有內容,都會輸入到該模塊中。該模塊會以與之前一致的方式進行工作。」Michael Sun 說道,「同樣,每個模塊的輸出都會經過編碼,並反饋到大語言模型的生成過程中,這樣大語言模型就能了解每個模塊的作用,並繼續根據這些數據預測標記。」



成功率提高7倍!新方法一句話就能讓AI秒出分子設計+合成步驟 - 天天要聞

更優、更簡單的分子結構


最終,Llamole 會輸出分子結構圖像、分子文本描述以及分步合成計劃,該計劃詳細說明了如何合成分子,包括具體的化學反應。


在設計符合用戶規格分子的實驗中,Llamole 的表現優於 10 種標準大語言模型、4 種微調大語言模型,以及最先進的特定領域方法。同時,它通過生成更高質量的分子,將逆合成規劃成功率從 5% 提升至 35%,這意味着這些分子結構更簡單,構建模塊成本更低。


「大語言模型自身很難確定如何合成分子,因為這需要大量多步驟規劃。我們的方法能生成更優且更易合成的分子結構。」Gang Liu 說道。


為了訓練和評估 Llamole,研究人員從頭構建了兩個數據集,因為現有的分子結構數據集細節不足。他們用 AI 生成的自然語言描述和自定義描述模板,對數十萬個專利分子進行了擴充。


他們為微調大語言模型構建的數據集包含與 10 種分子特性相關的模板,因此 Llamole 的一個局限在於,它被訓練為僅考慮這 10 種數值特性來設計分子。


在未來的研究中,研究人員希望擴展 Llamole 的功能,使其能夠考慮任何分子特性。此外,他們還計劃改進圖形模塊,提高 Llamole 的逆合成成功率。


從長遠來看,他們希望利用這種方法拓展應用範圍,超越分子領域,創建能處理其他圖基數據的多模態大語言模型,例如電網中的互連傳感器數據或金融市場中的交易數據。


「Llamole 展示了將大型語言模型用作處理文本描述之外複雜數據的接口的可行性,我們預計它們將成為與其他 AI 算法交互以解決各類圖形問題的基礎。」Jie Chen 說道。


原文鏈接:

https://news.mit.edu/2025/could-llms-help-design-our-next-medicines-and-materials-0409

科技分類資訊推薦

聯想的AI野心:用「超級智能體」卡位萬億市場?​ - 天天要聞

聯想的AI野心:用「超級智能體」卡位萬億市場?​

最近兩年,在AIGC(生成式人工智能)的推動下,各類AI硬件層出不窮,但除了AI PC和AI手機,其他AI硬件幾乎都還未被市場認可。作為全球最大的PC廠商之一,以及旗下還擁有摩托羅拉智能手機業務,聯想顯然也渴望在這輪AI硬件浪潮中,打下一片屬於自己的天地。5月7日,聯想集團以「讓AI成為創新生產力」為主題,在Tech World 2...
星海圖雙臂移動平台 R1 Lite 發佈,搭載酷睿 i9-12900HK - 天天要聞

星海圖雙臂移動平台 R1 Lite 發佈,搭載酷睿 i9-12900HK

IT之家 5 月 7 日消息,星海圖今日發佈了全新升級的雙臂移動平台 R1 Lite。R1 Lite 可選上裝 / 側裝雙布局,支持 60cm 臂長 6 DOF A1X 雙臂協同作業,還配有 3 DOF 軀幹、6 DOF 矢量底盤。R1 Lite 搭載了英特爾酷睿 i9-12900HK 處理器、32GB 內存 + 1TB SSD 存儲,IT之家附官方一圖知如
理想汽車回應李想6.39億元年薪:說法不準確 - 天天要聞

理想汽車回應李想6.39億元年薪:說法不準確

紅星資本局5月7日消息,近日,理想汽車(02015.HK/LI.US)創始人、董事長兼CEO李想2024年領取6.39億元「天價年薪」衝上熱搜引發熱議。5月7日,理想汽車方面向紅星資本局表示:「『李想年薪6.39億』這一說法並不準確。
【產業互聯網周報】阿里通義再失大將:鄢志傑、薄列峰三個月內相繼離職;歐盟對TikTok處以5.3億歐元罰款;英偉達:中國特供版GPU將6月上市 - 天天要聞

【產業互聯網周報】阿里通義再失大將:鄢志傑、薄列峰三個月內相繼離職;歐盟對TikTok處以5.3億歐元罰款;英偉達:中國特供版GPU將6月上市

【產業互聯網周報是由鈦媒體TMTpost發佈的特色產品,將整合本周最重要的企業級服務、雲計算、大數據領域的前沿趨勢、重磅政策及行研報告。】財報季Palantir一季度營收飆升39%超預期,上調全年營收指引Palantir發佈第一季度財報,該公司第一季度營收飆升39%,達8.84億美元,高於分析師平均預期的8.63億美元;調整後EBITDA為...
吉林省舉辦農特產品線上營銷培訓大會暨京東「春曉計劃」全新升級長春站活動 - 天天要聞

吉林省舉辦農特產品線上營銷培訓大會暨京東「春曉計劃」全新升級長春站活動

5月7日,吉林省舉辦2025年第二期農特產品線上營銷培訓大會暨京東「春曉計劃」全新升級長春站活動。 吉林省農特產品線上營銷培訓大會 本次活動由吉林省林業和草原局、吉林省農業農村廳、吉林省糧食和物資儲備局、吉林省畜牧業管理局、吉林省供銷合作社與京東集團共同舉辦。活動的目的是:拓寬吉林省農特產品營銷渠道,強化農...
鴻蒙電腦技術即將亮相 - 天天要聞

鴻蒙電腦技術即將亮相

5月7日,觀察者網獲悉,華為將於5月8日上午在深圳召開鴻蒙電腦技術與生態溝通會,會上鴻蒙電腦將正式亮相,溝通會可能將涉及鴻蒙電腦介紹、體驗以及介紹自研和三方生態。據企查查知識產權商標信息顯示,今年2月,華為技術有限公司已申請註冊多個「鴻蒙電腦」相關圖形商標,國際分類涉及設計研究、廣告銷售、科學儀器,當前...
黃仁勛最新對話:如果我們自己退出某個市場,華為一定會迅速補位…… - 天天要聞

黃仁勛最新對話:如果我們自己退出某個市場,華為一定會迅速補位……

在今年3月提出「AI工廠「概念之後,英偉達CEO黃仁勛一直在推廣他的「人工智能是下一場製造業革命」的觀點。「一個全新的產業正在誕生,即AI工廠產業。」「英偉達不僅造芯片,而是構建整條AI基礎設施鏈條。」在5月6日下午(美西時間)2025年米爾肯研究院全球大會的最新對話上,黃仁勛再次強調。米爾肯研究院主辦的年度高端論...