「幾何構象增強AI演算法」，百度生物計算研究成果登《Nature》子刊

2022年02月23日15:30:08 科技 1496

機器之心發布

機器之心編輯部

近日，百度在國際頂級期刊《Nature》旗下子刊《Nature Machine Intelligence》（Impact score 16.65）上發表了 AI + 生物計算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》，提出「基於空間結構的化合物表徵學習方法」，即「幾何構象增強 AI 演算法」（Geometry Enhanced Molecular Representation Learning，GEM 模型），揭示了一種基於三維空間結構信息的化合物建模方法，以及在藥物研發中的應用。

論文鏈接：https://www.nature.com/articles/s42256-021-00438-4

公開資料顯示，《Machine Intelligence》是《Nature》旗下專註於機器學習領域的頂級期刊，過去兩年該期刊的影響因子已超過 16。在該項研究中，百度螺旋槳 PaddleHelix 團隊首次將化合物的幾何結構信息引入自監督學習和分子表示模型，並在下游十多項的屬性預測任務中取得 SOTA，成為百度在 AI 賦能藥物研發領域對外公開的又一項重磅成果。

葯研領域求變，AI + 生物計算成最佳選擇

眾所周知，藥物研發的成本高、周期長、風險高。據美國塔夫茨大學 2014 年的研究，新葯進入市場的平均成本約為 26 億美元，從首次合成到進入臨床試驗的平均耗時為 31.2 個月，從一期臨床到上市長達 96.8 個月。另一方面，隨著全球邁入老齡化社會，對新葯的需求也在逐年增加，到 2024 年全球醫藥市場總規模將超過 11 萬億。與之相反，製藥公司每 10 億美元投資所獲得的上市新葯數量卻在逐年下降。如何通過新的技術手段，快速找到有潛力的候選藥物，降低進入臨床試驗失敗的風險，就成為藥物研發領域最亟需解決的問題。

在計算方法出現之前，藥物研發基本通過生物實驗的方法來尋找藥物，成本高昂且耗時長，隨著計算化學和計算生物學的發展，也有通過傳統機器學習方法輔助進行藥物設計的，但這些方法或多或少在效果和效率層面有不足，以小分子為例，要找到一個候選藥物，篩選（搜索）的數量級達到 10 的 60 次方，傳統計算方法很難高效完成。另一方面，隨著 AI 技術的發展和普及，藥物研發也逐漸進入到 AI 時代，天生擅長處理大數據的 AI 深度學習技術，就成為近年來大家關注的焦點，希望通過 AI 新技術提升藥物研發效率，減少後期失敗概率，降低藥物研發成本。

化合物的性質預測的主要目的在於及時發現理化性質不達標的化合物，以降低候選化合物進入臨床實驗失敗的風險，提升藥物研發的成功率。傳統的化合物性質預測分析一般採取實驗方式，成本高昂且耗時長。業內也有一些基於 AI 演算法的工作，但大多是使用化合物的二維信息，沒有納入化合物的三維空間結構信息。而百度首次提出，將化合物的空間結構信息引入到化合物預訓練中，通過幾何增強的自監督學習，對化合物分子進行表徵，通過化合物的表徵自主推斷出空間結構信息，進而預測化合物分子的性質屬性，以輔助進行藥物研發，提升效率，降低成本。

值得一提的是，該研究由百度螺旋槳 PaddleHelix 生物計算團隊獨立完成，並已經在藥物研發領域，攜手合作夥伴在早期藥物研發管線中落地。

百度 GEM 模型加速藥物研發進程

很多的研究工作都證明了機器學習技術，特別是深度學習在化合物性質預測方面的巨大潛力，這些工作使用序列（SMILES 表達式）或是圖（原子為節點，化學鍵為邊）來表示化合物，用序列建模或者圖神經網路（GNN）去預測化合物的屬性。有些研究直接把每個化合物看作一個圖，利用基於圖拓撲結構的自監督學習方法進行分子表徵，比如，遮蓋並還原化合物圖中的原子，化學鍵或子結構。但是，這些方法都只把化合物視為拓撲圖，沒有充分利用化合物的幾何結構信息。而化合物的幾何結構，即三維空間結構，對化合物的物理，化學，生物等性質都起著關鍵性的作用，具有相同拓撲結構的兩個化合物的空間結構可能完全不同。另一方面，由於生物實驗複雜的操作和高昂的成本，化合物的標註數據十分稀少且珍貴。稀疏的數據讓深度神經網路極易過擬合，難以發揮強大的建模能力，如何從海量的無標註化合物中學習高質量的化合物表徵成為化合物建模和屬性預測的關鍵。

鑒於此，百度提出一種全新的基於空間結構的化合物建模方法——幾何構象增強 AI 演算法 GEM，並設計了多個幾何級別的自我監督學習策略，用於學習化合物的空間結構知識，使得化合物的表徵能自主推斷出空間結構信息。這項技術在十多個基準的化合物屬性預測數據集上均取得出色成績，並成功應用到候選化合物的 ADMET 成藥性預測任務上，取得良好收益。

解讀幾何構象增強 AI 演算法 GEM 模型

幾何構象增強 AI 演算法 GEM 模型包含兩個主要部分：基於空間結構的圖神經網路（a）和多個幾何級別的自監督學習任務（b）。

圖 1: GEM 的整體框架

基於空間結構的圖神經網路

由於化合物的集合結構可以完全被原子－化學鍵鍵長－鍵角確定。GEM 提出了一種基於空間結構的圖網路，同時對原子－化學鍵－鍵角的關係建模空間結構信息。每個化合物由兩個圖組成：原子－化學鍵的圖 G 和化學鍵－鍵角的圖 H。類似於過往的工作，原子－化學鍵的圖 G 以原子作為圖的節點，化學鍵作為連接原子的邊。而化學鍵－鍵角的圖 H 則為首次引入，以化學鍵作為圖的節點，兩個化學鍵所形成的鍵角為圖的邊。圖神經網路包含多輪迭代，而化學鍵作為每一輪迭代中圖 G 和圖 H 的橋樑進行信息互通。最後一輪迭代的表徵被用於化合物屬性預測。

基於空間結構的自監督學習

為了使模型更好學習到化學空間知識，GEM 不單單只是將幾何信息作為輸入，更進一步地設計了基於幾何信息的學習任務（目標）：預測化學鍵的長度；預測化學鍵組成的鍵角；預測兩兩原子之間的距離。其中，鍵長和鍵角描述化合物的局部結構，而兩兩原子之間的距離更關注化合物的全局結構。描述局部結構的自監督學習任務隨機挑選化合物中以某個原子為中心的子圖並進行遮蓋，預測被遮蓋的子圖中的化學鍵的鍵長和化學鍵間形成的鍵角。描述全局結構的自監督學習任務則預估原子距離矩陣中的元素。通過這些基於空間結構的自監督學習任務，圖神經網路能夠有效推斷出化合物的空間信息，從而對化合物的表徵帶來正向影響。

實驗結果

GEM 在 14 個化合物屬性的基準數據集中取得了最佳表現，這些數據集都是目前學術界公認的化合物屬性預測數據集。例如，在毒性相關的數據集（tox21、toxcast）和 HIV（艾滋病）病毒數據集上，GEM 預測結果遠優於其他 baseline 模型。總體而言，百度的 GEM 模型，在 ESOL、FreeSolv 等回歸任務上相對現在方法提升 8.8%，在 BACE、BBBP、SIDER 等分類任務上相對提升 4.7%。此外，在自監督學習方法上的消融實驗也證明了基於空間結構的自監督學習方法的有效性。

落地 ADMET 成藥性預測和藥物篩選等場景

幾何構象增強 AI 演算法 GEM，能很好的學習化合物的空間結構知識，自主推斷出空間結構信息，從而準確地預測候選化合物的 ADMET 性質——吸收（Absorption）、分布（Distribution）、代謝（Metabolism）、排泄（Excretion）和毒性（Toxicity），幫助在藥物研發早期快速篩選潛在成功率更高的化合物。據了解，百度的該項研究已經應用於藥物研發領域，在合作夥伴的早期藥物篩選管線中實現了商業化落地。

此外，幾何構象增強 AI 演算法 GEM 還在藥物虛擬篩選和藥物聯用方面，也起到關鍵作用。藥物虛擬篩選是藥物研發的重要一環，旨在通過從大規模的虛擬化合物庫中找到與目標靶點有強親和力的候選化合物。藥物聯用是通過預測兩個藥物在不同細胞系中的協同效用，以幫助找出給定藥物在某一細胞系內中具有最佳協同作用。使得兩種有協同效用的藥物能夠在保證治療效果的同時，減少抗藥性的產生。並通過降低使用劑量提升藥物的安全性。

關於百度螺旋槳 PaddleHelix

螺旋槳 PaddleHelix 是基於百度飛槳深度學習框架打造，面向新葯研發、疫苗設計、精準醫療等場景的生物計算平台，為生物醫藥領域的研究者提供全面的 AI + 生物計算的模型工具和技術方案。目前，螺旋槳 PaddleHelix 平台已開放多個模型，涵蓋分子生成、虛擬篩選、ADMET 預測、蛋白 / RNA 結構預測、mRNA 序列設計、雙葯聯用等方面。

除此之外，在 PPI 蛋白－蛋白相互作用，組學的表徵和精準用藥等方面，螺旋槳 PaddleHelix 團隊也開展了相關的工作，並在多個國際競賽中取得佳績，相關研究成果也將陸續開放給大家體驗試用。未來，螺旋槳 PaddleHelix 生物計算平台，還將繼續秉持開源開放的態度，繼續攜手合作夥伴賦能生物計算行業，共建 AI + 生物計算的生態和服務。

基於空間結構的化合物表徵學習方法 GEM 已通過螺旋槳 PaddleHelix 平台對外開放，歡迎大家使用。