哥大團隊發佈首個AlphaFold 2模型，在推理速度、內存佔用更具優勢

2022年06月30日00:02:02 科學 1517

近日，有專家復刻了 AlphaFold 2 模型，以讓大眾能更容易使用其功能。

該復刻版本名為 OpenFold，採用 PyTorch 框架。據 PyTorch 官網：「PyTorch 是一個開源機器學習框架，可加速從研究原型到生產部署的路徑。」

（來源：GitHub）

AlphaFold 2 是由 AI 公司 DeepMind 開發的深度學習系統，最為人知的是被用於預測蛋白質結構。這可以看作 AI 用於推動科學研究的一個里程碑事件。

對於蛋白質結構的預測有望在生命科學領域產生各種各樣的好處，比如加速先進藥物的發現和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白質結構預測技術關鍵評估（CASP，Critical Assessment of protein Structure Prediction）比賽中總體排名第一（其第一代版本在 2018 年 12 月第 13 屆 CASP 大賽中同樣獲得第一）。這被認為是計算生物學的重大成就，也是朝着數十年來生物學的重大挑戰取得的巨大進展。

2021 年 7 月，用 AlphaFold 2 預測蛋白質結構的相關論文發表在 Nature，題為《用 AlphaFold 可以高精度地預測蛋白質結構》（Highly accurate protein structure prediction with AlphaFold）。同時，DeepMind 還向公眾公布了蛋白質組數據庫，並將 AlphaFold 2 開源。

但 AlphaFold 2 的實際部署比較困難，硬件要求、空間佔用、下載時間長等方面對普通開發者不夠友好。因此，相關專家和開源社區都在致力於打造一個方便使用的 AlphaFold 2 版本。

本次哥倫比亞大學系統生物學系助理教授穆罕默德·庫萊希（Mohammed AlQuraishi）表示，他們構建的可訓練 OpenFold 模型是 AlphaFold 2 的第一個完整公開複製品，並已在 GitHub 開源。

（來源：GitHub）

開發人員表示：「OpenFold 再現了（幾乎）原始開源推理代碼（v2.0.1）的所有功能。我們已經公開發佈了模型權重和訓練數據，大約 40 萬個 MSA（測量系統分析，Measurement Systems Analysis）和 PDB70 文件。」

據了解，模型權重可通過 GitHub 存儲庫中的腳本獲得，而 MSA 則由 AWS（Amazon Web Services，亞馬遜網絡服務）上的開放數據註冊表（RODA）託管。OpenFold 的所有代碼都基於 PyTorch 環境，而 AlphaFold 2 是為 JAX 工作流開發的。此外，除了 AlphaFold 的官方參數，OpenFold 支持使用開發人員自己的 Colab notebook 進行推理。

然後，值得一提的是，相比原版 AlphaFold 2，OpenFold 甚至在推理速度、內存佔用方面要更具優勢。比如超長鏈的推理、更快的短鏈推理（速度約為 AlphaFold2 的兩倍）、高效的對齊腳本等方面。

研究者表示，在 40GB A100 上最多可以得到約 4600 個氨基酸殘基的序列結構，並可以進一步優化。憑藉新的可自定義 CUDA 注意內核，佔用的 GPU 內存比 FastFold 內核少近四倍。

根據 CAMEO 的驗證集上的 GDT_TS 分數，將 OpenFold 和 AlphaFold 2 比較，可以從下面的散點圖看到兩者的準確度十分接近。甚至平均而言 OpenFold 稍好。研究人員解釋說，可能是由於他們的訓練集更大。

（來源：Twitter）

據了解，OpenFold 在 A100 GPU 上訓練了大約 10 萬個計算小時，但 90% 的最終精度僅在前 3000 個計算小時內就達到了。研究人員表示，在最初的快速增長之後，精度增益顯着減慢，儘管它仍然逐漸攀升。這對訓練 OpenFold 和 AlphaFold 2 變體具有重要意義。

他還提到，本次採用的 GPU 為英偉達發佈的 A100，後續希望能在較低端 GPU 上進行訓練。目前他們有一個 AlphaFold-Gap 選項，應該很快就會啟動並運行多聚體版本（使用 AF2-multimer 權重）。

研究者還表示，即將發表相關的預印本文章，其中包含在培訓和研究的大量細節。並說：「我們的 OpenFold 努力遠未結束。事實上，這只是一個開始。請繼續關注後續發佈的激動人心的消息。」

最後，蛋白質摺疊是科學家幾十年來一直面臨的一個問題。據維基百科：「蛋白質摺疊是蛋白質鏈被翻譯成其天然三維結構的物理過程，通常是蛋白質變得具有生物功能的『摺疊』構象。」

目前，對其的研究一般通過「X射線晶體學、冷凍電子顯微鏡和核磁共振」等技術進行實驗測定，然而，這些技術的使用在時間和成本方面都耗費較大。

如果能夠僅從氨基酸序列中預測蛋白質結構，將大大有助於推進科學研究，可能會導致醫學和生物學理解的全面快速突破。

蛋白質摺疊涉及了決定摺疊穩定結構的原子間力的熱力學、蛋白質極快地達到其最終摺疊狀態的機制和途徑，以及如何從其氨基酸序列中預測蛋白質的天然結構等極其複雜問題。

之前，研究人員也應用了許多計算方法來解決蛋白質結構預測的問題，但除了小的簡單蛋白質外，它們的準確性並不接近實驗技術，從而限制了其價值。OpenFold 與 AlphaFold 2 等 AI 模型預計會在蛋白質摺疊問題上發揮越來越重要的作用。

-End-

參考：
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold