編輯 | 綠蘿
藥物的臨床療效和安全性取決於其在人體中的分子特性和靶點。然而,對人類甚至動物模型中的所有化合物進行蛋白質組範圍的評估具有挑戰性。
近日,來自湖南大學的研究人員開發了一個名為 ImageMol 的無監督預訓練深度學習框架,具有化學意識,用於從大規模分子圖像中學習分子結構。為計算藥物發現提供了一個強大的預訓練深度學習框架。
與最先進的方法相比,ImageMol有兩個重要的改進:(1)它利用分子圖像作為化合物的特徵表示,具有高精度和低計算成本;(2) 它利用無監督的預訓練學習框架從人類蛋白質組中具有不同生物活性的 1000 萬種藥物樣化合物中捕獲分子圖像的結構信息。
該研究以《Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework》為題,於 2022 年 11 月 21 日發布在《Nature Machine Intelligence》上。

論文鏈接:https://www.nature.com/articles/s42256-022-00557-6
儘管生物醫學研究和技術取得了進展,但藥物發現和開發仍然是一項具有挑戰性的多維任務,需要優化候選化合物的重要特性,包括葯代動力學、功效和安全性。傳統的實驗方法在蛋白質組範圍內對人類甚至動物模型中所有候選化合物的分子靶標進行評估是不可行的。計算方法和技術被認為是一種有前途的解決方案,可以在整個藥物發現和開發過程中大大減少成本和時間。
人工智能技術應用於藥物設計和目標識別。基本挑戰之一是如何從化學結構中學習分子表徵。傳統的分子表示方法依賴於大量的領域知識來提取分子特徵。
隨着自然語言處理中無監督學習的興起,最近的方法將無監督學習與一維序列字符串相結合,例如簡化的分子輸入行輸入系統(SMILES)和國際化學標識符(InChI),或二維圖。然而,它們在提取用於描述分子身份和分子生物學特徵的信息向量方面的準確性是有限的。計算機視覺無監督學習的最新進展表明,可以將無監督的基於圖像的預訓練模型應用於計算藥物發現。
在此,湖南大學研究團隊提出了一個名為 ImageMol 的無監督預訓練深度學習框架,對 1000 萬個未標記的類藥物生物活性分子進行了預訓練,以預測候選化合物的分子靶點。ImageMol 框架旨在根據來自像素的分子的局部和全局結構特徵,從未標記的分子圖像中預訓練化學表徵。

圖 1:ImageMol 框架。(來源:論文)
ImageMol 框架
研究人員開發了一個預訓練深度學習框架 ImageMol,用於準確預測分子靶點。ImageMol 預訓練了來自 PubChem 數據庫的 9,999,918 張類藥物生物活性分子圖像。研究人員組裝了五個借口任務來提取生物學相關的結構信息:(1)分子編碼器旨在從約 1000 萬個分子圖像中提取潛在特徵;(2) 五種預訓練策略用於通過考慮分子圖像中的化學知識和結構信息來優化分子編碼器的潛在表示;(3) 預訓練分子編碼器針對下游任務進行微調,以進一步提高模型性能。
ImageMol 的基準評估
研究人員展示了 ImageMol 在評估 51 個基準數據集的分子特性(即藥物的代謝、腦滲透和毒性)和分子靶點概況(即 β-分泌酶和激酶)方面的高性能。
首先使用八種類型的藥物發現基準數據集評估了 ImageMol 的性能,然後,使用三種流行的split 策略(scaffold split、balanced scaffold split 和 random scaffold split )來評估 ImageMol 在所有基準數據集上的性能。

圖 2:使用基準數據集對 ImageMol 進行性能評估。(來源:論文)
在分類任務中,使用接受者操作特徵 (ROC) 曲線 (AUC) 下的面積,ImageMol 實現了高 AUC 值(圖 2a)。此外,ImageMol 在 BBBP 和 BACE 數據集上的概率分布相似度大於 95%,表明 ImageMol 在訓練過程中具有較高的一致性和穩定性。
圖 2c 顯示,與三種最先進的基於分子圖像的表示模型相比,ImageMol 在預測五種主要藥物代謝酶的抑製劑與非抑製劑方面也實現了更高的 AUC 值(範圍從 0.799 到 0.893)。
進一步將 ImageMol 的性能與三種最先進的分子表示模型進行了比較:(1) 基於指紋的模型,(2) 基於序列的模型和 (3) 基於圖形的模型。如圖 2d、e 所示,與使用 random scaffold split 的基於指紋、基於序列和基於圖形的模型相比,ImageMol 具有更好的性能。
在化合物-蛋白質結合預測任務中,與現有方法相比,ImageMol 在十個 GPCR(回歸任務)和十個激酶(分類任務)上取得了更好的性能。
進一步使用 McNemar 檢驗來評估最先進模型和 ImageMol 之間性能差異的統計顯着性。與多個數據集上的現有方法相比,ImageMol 顯示出統計上更高的性能。
總之,ImageMol 在各種藥物發現任務中實現了改進的性能,優於最先進的方法。
ImageMol 在國家轉化科學推進中心的 13 個高通量實驗數據集中顯示了識別抗 SARS-CoV-2 分子的高精度。通過 ImageMol,確定了用於潛在治療 COVID-19 的候選臨床 3C 樣蛋白酶抑製劑。
ImageMol 的生物學解釋
接下來,使用 t-SNE 可視化來自不同模型的分子表示,以測試 ImageMol 的生物學解釋。研究人員使用由多粒度化學簇分類 (MG3C) 任務(方法)識別的簇來拆分分子結構。研究發現 ImageMol 可以很好地區分分子結構,優於 MACCS 指紋和非預訓練模型。ImageMol 可以從分子圖像表示中捕獲化學信息的先驗知識,包括 =O 鍵、-OH 鍵、-NH3 鍵和苯環。進一步使用 Davies–Bouldin (DB) 索引來定量評估聚類結果:較小的 DB 索引表示更好的性能。研究發現 ImageMol(DB 指數 1.92)優於 MACCS 指紋(DB 指數 2.93);此外,預訓練模型也可以大大提高分子表徵(ImageMol 沒有預訓練的 DB 指數為 19.40)。

圖 3:ImageMol 的生物學解釋。(來源:論文)
梯度加權類激活映射 (Grad-CAM) 是一種常用的 CNN 可視化方法。說明 ImageMol 的 Grad-CAM 可視化的 12 個示例分子。ImageMol 同時準確地捕獲對全局和局部結構信息的關注。ImageMol 是根據分子結構進行預測,而不是使用無意義的空白區域。
然後,進一步計算了粗粒度和細粒度的命中率。粗粒度命中率說明 ImageMol 可以利用所有圖像的分子結構進行推理,比率為 100%,而 QSAR-CNN 模型 為 90.7%。細粒度命中率表明 ImageMol 可以利用分子圖像中幾乎所有的結構信息進行推理,比例超過 99%,體現了其捕獲分子全局信息的能力。
總之,ImageMol 捕獲分子圖像的生物學相關化學信息,優於現有的最先進的深度學習方法。
潛在方向的改進
幾個潛在的方向可能會進一步改進 ImageMol:(1)更大規模的生物醫學數據和更大容量的分子圖像模型的集成必然是未來工作的重點;(2) 聯合圖像和其他表示(例如 SMILES 和圖形)的多視圖學習是一個重要的研究方向;(3)將更多的化學知識(如原子性質、化學性質和 3D 結構信息)融入到每個圖像或像素區域中也是一個很有前途的未來方向。
總之,ImageMol 是一種基於主動自我監督圖像處理的策略,為各種人類疾病的計算藥物發現提供了強大的工具箱。