比量子化學方法快六個數量級,一種基於絕熱狀態人工神經網路方法

2022年07月04日19:38:09 科學 1708

編輯 | 蘿蔔皮

光誘導化學過程在自然界中無處不在,並具有廣泛的技術應用。例如,光異構化可以使具有光可切換支架的藥物被光激活。原則上,具有所需光物理特性(如高異構化量子產率)的光開關,可以通過反應模擬的虛擬篩選來識別。

然而在實踐中,這些模擬很少用於篩選,因為它們需要數百條軌跡和昂貴的量子化學方法來解釋非絕熱激發態效應。

在這裡,哈佛大學麻省理工學院的研究人員,開發了一種基於絕熱狀態的絕熱人工神經網路(DANN),用於加速對偶氮苯衍生物及此類分子的模擬。該網路比用於訓練的量子化學方法快六個數量級。DANN 可轉移到訓練集之外的偶氮苯分子,預測與實驗相關的未見物種的量子產率。

研究人員使用該模型虛擬篩選 3100 個假設分子,並識別具有高預測量子產率的「新物種」。使用高精度非絕熱動力學確認模型預測。其結果為快速準確地虛擬篩選光活性化合物鋪平了道路。

該研究以「Excited state non-adiabatic dynamics of large photoswitchable molecules using a chemically transferable machine learning potential」為題,於 2022 年 6 月 15 日發布在《Nature Communications》。

比量子化學方法快六個數量級,一種基於絕熱狀態人工神經網路方法 - 天天要聞

光是操縱分子系統的強大工具。它可以以高空間、光譜和時間精度進行控制,以促進各種過程,包括能量轉移、分子間反應和光異構化。這些過程用於合成、能量存儲、顯示技術、生物成像、診斷和醫學等多種領域。

例如,光活性藥物是可光切換的化合物,其生物活性可以通過光誘導異構化來切換。對生物活性的精確時空控制允許以高劑量遞送光活性藥物,同時具有最小的脫靶活性和副作用。這種療法是治療癌症、神經退行性疾病、細菌感染、糖尿病和失明的有希望的途徑。

理論在解釋和預測光化學方面起著關鍵作用,因為從熱激活基態過程中學到的經驗啟發式,通常不適用於激發態。基於量子力學的計算機模擬,可以在預測實驗觀測值方面達到令人印象深刻的準確性。這些包括光可切換化合物的異構化效率和吸收光譜,這是設計光活性藥物的關鍵。

然而,光化學中的從頭算方法受到其計算成本的嚴重限制。為了收集一個分子的有意義的統計數據,需要進行數百次重複模擬,每個模擬都涉及以亞飛秒時間步長串聯執行的數千次電子結構計算。單獨的量子化學計算要求特別高,需要激發態梯度和多參考效應的一些處理。在某些情況下,每個時間步都需要基態梯度和激發態梯度。使用從頭算方法計算數十或數百個分子的光化學性質是不切實際的,並且光動力學模擬尚未用於大規模虛擬篩選。

其中最準確和最昂貴的電子結構方法是多參考擾動技術,但它們的成本和手動主動空間選擇的要求限制了它們在虛擬篩選中的使用。

多年來,光化學界為了克服這兩個障礙,已經開發了一些令人振奮的方法。例如,縮減縮放技術和圖形處理單元可以顯著加速多參考計算。密度矩陣重整化組(DMRG)和多參考密度泛函理論(DFT)方法擴大了可以高精度處理的系統的規模。DMRG 還被用於自動選擇多參考方法的活動空間。以及不太準確,但更實惠的黑盒方法,包括自旋翻轉時間相關 DFT (SF-TDDFT) 和孔洞 Tamm-Dancoff DFT 等。

儘管有這些發展,非絕熱模擬的成本仍然很高。即使是相對實惠的 SF-TDDFT,對於虛擬篩選來說也是非常昂貴的。半經驗方法是目前唯一可負擔的大規模篩查方法。它們在許多系統中提供了定性正確的結果,但最終受限於它們的近似值,平均能量誤差為 15 kcal/mol。

另一種方法是使用數據驅動模型代替量子化學(QC)計算。在量子化學數據上訓練的機器學習(ML)模型現在可以以亞化學精度常規預測基態能量和力,並且只需幾毫秒即可做出預測。這些模型已成功用於各種基態模擬。它們還被用於加速許多模型系統中的非絕熱模擬。

然而,激發態 ML 尚未為數百個實際大小的分子提供負擔得起的光動力學,這是光藥理學預測模擬的最終目標。此外,尚未開發出可轉移到不同化合物的激發態原子間勢。因此,他們需要對每個「新物種」進行數千次 QC 計算來作為訓練數據。

在這裡,哈佛麻省理工的研究人員,在使用 ML 進行負擔得起的大規模光化學模擬和虛擬篩選方面取得了重大進展。為了開發可轉移的潛力,他們專註於來自同一化學家族的分子,研究偶氮苯的衍生物,一種原型光開關。

比量子化學方法快六個數量級,一種基於絕熱狀態人工神經網路方法 - 天天要聞

圖示:偶氮苯衍生物中勢能表面的描述。(來源:論文)

這裡研究的衍生物包含多達 100 個原子,使其成為迄今為止符合激發態 ML 勢的最大系統。結合等變神經網路和基於物理的絕熱模型,以及化學空間組合探索產生的數據,以及通過主動學習進行的配置採樣,他們生成了一個模型 DANN,該模型可轉移應用到大型的、看不見的偶氮苯衍生物。

比量子化學方法快六個數量級,一種基於絕熱狀態人工神經網路方法 - 天天要聞

圖示:神經網路架構和主動學習循環。(來源:論文)

這產生了超過六個數量級的計算節省。未知物種的預測異構化量子產率與實驗值相關。該模型用於預測 3100 多種假設物種的量子產率,揭示了具有高順式-反式和反式-順式量子產率的稀有分子。

比量子化學方法快六個數量級,一種基於絕熱狀態人工神經網路方法 - 天天要聞

圖示:DANN-NAMD 的速度和準確性。(來源:論文)

DANN 模型顯示了偶氮苯衍生物之間的高精度和可轉移性。一個限制是,看不見的物種包含在一定程度上存在於訓練集中的功能組。對於更高代表性的功能組,模型性能通常更高,儘管一些組的代表性很高但難以擬合,而另一些組的代表性較弱且擬合良好。

此外,如果沒有額外的訓練數據,該模型不能應用於其他化學家族。比如,它大大高估了許多反式衍生物的激發態壽命。

另一方面,半經驗方法在各種化學物質中提供了定性正確的預測,但無法與 DANN 的域內準確性相匹配,並且無法通過更多參考數據進行改進。如在 OrbNet 模型中所做的那樣,從半經驗計算中添加特徵可能在未來證明是有用的。考慮到非局部效應和自旋態的最新發展提高了神經網路的可轉移性,也可能對激發態有益。該模型可以通過高精度多參考計算、溶劑效應和包含明亮的 S2 狀態來進一步改進。

特別是自旋完全方法的使用至關重要,因為自旋污染阻礙了對基礎化合物模型的微調。它也可能總體上影響了 DANN 模型的準確性。因此,自旋完成、負擔得起的替代品特別令人感興趣。主動學習可以通過具有對抗性不確定性攻擊的可微採樣來加速,這將改善激發態的壽命。遷移學習也可用於提高特定分子的性能。只需要少量的從頭計算來微調單個物種的模型。

Diabatization 也可能被證明對反應性基態有用。反應勢壘通常可以理解為從一種絕熱狀態到另一種絕熱狀態的轉變。非絕熱基礎可以使反應表面更容易適應神經網路。

比量子化學方法快六個數量級,一種基於絕熱狀態人工神經網路方法 - 天天要聞

圖示:虛擬篩選的結果。(來源:論文)

總之,研究人員引入了一種非絕熱多態神經網路潛力,在 SF-TDDFT BHHLYP/6-31G* 理論水平上對超過 630,000 個幾何形狀進行了訓練,涵蓋了超過 8000 個獨特的偶氮苯分子。他們使用 DANN-NAMD 預測了訓練集外衍生物的異構化量子產率,並將結果與實驗相關聯。

該團隊還確定了幾種具有高量子產率、紅移激發能量和反轉穩定性的假設化合物。訓練數據的網路架構、非分解方法以及化學和配置多樣性使模型能夠產生強大且可轉移的潛力。該模型可以現成地應用於新分子,產生的結果近似於 SF-TDDFT 的結果,計算成本降低了幾個數量級。

論文鏈接:https://www.nature.com/articles/s41467-022-30999-w

科學分類資訊推薦

大熊貓「鑫寶」和「雲川」啟程了 - 天天要聞

大熊貓「鑫寶」和「雲川」啟程了

今年2月,中國野生動物保護協會與美國聖迭戈動物園野生動植物聯盟簽署了新一輪大熊貓國際保護合作研究協議。中美雙方經過充分準備,今天,來自中國大熊貓保護研究中心的兩隻大熊貓「鑫寶」「雲川」啟程前往聖迭戈動物園,開啟為期10年的旅居生活,延續雙方
托底騰飛、5米墜落!領克07 EM-P完成行業首次極限挑戰 - 天天要聞

托底騰飛、5米墜落!領克07 EM-P完成行業首次極限挑戰

快科技6月27日消息,據領克汽車官方發布,近日,領克07 EM-P完成行業首次托底後高空墜落挑戰。據悉,此次領克07EM-P攜手中汽信科,根據真實場景設置超高難度挑戰,先托底,後騰飛,再墜落,挑戰時速50km/h正面應對托底測試、挑戰行業首次托底+翻滾雙重測試。托底:車速50km/h剮蹭底盤通過直徑為150mm的剛性半球形壁障,領克...
【生物多樣性看甘孜】四川甘孜州石渠縣記錄到幼年金雕捕食畫面 - 天天要聞

【生物多樣性看甘孜】四川甘孜州石渠縣記錄到幼年金雕捕食畫面

近日,四川長沙貢瑪國家級自然保護區工作人員和西華師範大學生物多樣性與生態適應研究團隊在四川甘孜藏族自治州石渠縣開展生物多樣性調查時,拍攝到一隻金雕亞成體的捕食活動畫面。畫面中,一隻金雕在旱獺、鼠兔的洞口耐心等候,一動不動地觀察著獵物的活動,一旦有身體肥碩滾圓、肉質細嫩的獵物從洞口跑出來,就會立刻出擊...
瞰「飛碟」 - 天天要聞

瞰「飛碟」

半島全媒體記者 王濱青島嶗山區張村河沿岸的科苑經六路以東、新宏路以北、科苑緯四路以南合圍區域,一座巨型的「太空飛碟」虛擬現實創享中心正向竣工衝刺。6月25日,虛擬現實創享中心的兩個穹頂已安裝到位,記者用無人機在高空俯拍,畫面十分壯觀。目前,項目建設處於收尾階段。據了解,青島虛擬現實創享中心整體設計以「平...
上海企業「數智碳」實踐 | 從第一顆種子開始「科技基因」就被植入 - 天天要聞

上海企業「數智碳」實踐 | 從第一顆種子開始「科技基因」就被植入

東禾九穀開心農場的全自動插秧機。今年的水稻插秧時節,在崇明區豎新鎮的東禾九穀開心農場,一台新引進的無人駕駛插秧機成為稻田裡的「明星」。工作人員為插秧機裝好秧盤後,只需進行簡單設置和遙控啟動,插秧機就能自動作業,將裝載的秧苗持續插入稻田。臨近稻田盡頭,插秧機會自動掉頭,在返程中繼續插秧。幾趟來回後,工...
楊冪論文爭議:查重率異常低,AI痕迹明顯,字數不足引質疑 - 天天要聞

楊冪論文爭議:查重率異常低,AI痕迹明顯,字數不足引質疑

近日,關於楊冪論文的爭議在學術界和網路上引發了廣泛討論。據報道,楊冪所提交的論文查重率異常低,僅為0.9%,且字數遠遠達不到發刊標準,這不禁讓人對其論文的質量和原創性產生質疑。更為引人關注的是,論文中疑似存在AI生成的痕迹,這一發現更是加劇