近日,有專家復刻了 AlphaFold 2 模型,以讓大眾能更容易使用其功能。
該復刻版本名為 OpenFold,採用 PyTorch 框架。據 PyTorch 官網:「PyTorch 是一個開源機器學習框架,可加速從研究原型到生產部署的路徑。」
(來源:GitHub)
AlphaFold 2 是由 AI 公司 DeepMind 開發的深度學習系統,最為人知的是被用於預測蛋白質結構。這可以看作 AI 用於推動科學研究的一個里程碑事件。
對於蛋白質結構的預測有望在生命科學領域產生各種各樣的好處,比如加速先進藥物的發現和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白質結構預測技術關鍵評估(CASP,Critical Assessment of protein Structure Prediction)比賽中總體排名第一(其第一代版本在 2018 年 12 月第 13 屆 CASP 大賽中同樣獲得第一)。這被認為是計算生物學的重大成就,也是朝着數十年來生物學的重大挑戰取得的巨大進展。
2021 年 7 月,用 AlphaFold 2 預測蛋白質結構的相關論文發表在 Nature,題為《用 AlphaFold 可以高精度地預測蛋白質結構》(Highly accurate protein structure prediction with AlphaFold)。同時,DeepMind 還向公眾公布了蛋白質組數據庫,並將 AlphaFold 2 開源。
但 AlphaFold 2 的實際部署比較困難,硬件要求、空間佔用、下載時間長等方面對普通開發者不夠友好。因此,相關專家和開源社區都在致力於打造一個方便使用的 AlphaFold 2 版本。
本次哥倫比亞大學系統生物學系助理教授穆罕默德·庫萊希(Mohammed AlQuraishi)表示, 他們構建的可訓練 OpenFold 模型是 AlphaFold 2 的第一個完整公開複製品,並已在 GitHub 開源。
(來源:GitHub)
開發人員表示:「OpenFold 再現了(幾乎)原始開源推理代碼(v2.0.1)的所有功能。我們已經公開發佈了模型權重和訓練數據,大約 40 萬個 MSA(測量系統分析,Measurement Systems Analysis)和 PDB70 文件。」
據了解,模型權重可通過 GitHub 存儲庫中的腳本獲得,而 MSA 則由 AWS(Amazon Web Services,亞馬遜網絡服務)上的開放數據註冊表(RODA) 託管。OpenFold 的所有代碼都基於 PyTorch 環境,而 AlphaFold 2 是為 JAX 工作流開發的。此外,除了 AlphaFold 的官方參數,OpenFold 支持使用開發人員自己的 Colab notebook 進行推理。
然後,值得一提的是,相比原版 AlphaFold 2,OpenFold 甚至在推理速度、內存佔用方面要更具優勢。比如超長鏈的推理、更快的短鏈推理(速度約為 AlphaFold2 的兩倍)、高效的對齊腳本等方面。
研究者表示,在 40GB A100 上最多可以得到約 4600 個氨基酸殘基的序列結構,並可以進一步優化。憑藉新的可自定義 CUDA 注意內核,佔用的 GPU 內存比 FastFold 內核少近四倍。
根據 CAMEO 的驗證集上的 GDT_TS 分數,將 OpenFold 和 AlphaFold 2 比較,可以從下面的散點圖看到兩者的準確度十分接近。甚至平均而言 OpenFold 稍好。研究人員解釋說,可能是由於他們的訓練集更大。
(來源:Twitter)
據了解,OpenFold 在 A100 GPU 上訓練了大約 10 萬個計算小時,但 90% 的最終精度僅在前 3000 個計算小時內就達到了。研究人員表示,在最初的快速增長之後,精度增益顯着減慢,儘管它仍然逐漸攀升。這對訓練 OpenFold 和 AlphaFold 2 變體具有重要意義。
他還提到,本次採用的 GPU 為英偉達發佈的 A100,後續希望能在較低端 GPU 上進行訓練。目前他們有一個 AlphaFold-Gap 選項,應該很快就會啟動並運行多聚體版本(使用 AF2-multimer 權重)。
研究者還表示,即將發表相關的預印本文章,其中包含在培訓和研究的大量細節。並說:「我們的 OpenFold 努力遠未結束。事實上,這只是一個開始。請繼續關注後續發佈的激動人心的消息。」
最後,蛋白質摺疊是科學家幾十年來一直面臨的一個問題。據維基百科:「蛋白質摺疊是蛋白質鏈被翻譯成其天然三維結構的物理過程,通常是蛋白質變得具有生物功能的『摺疊』構象。」
目前,對其的研究一般通過「X射線晶體學、冷凍電子顯微鏡和核磁共振」等技術進行實驗測定,然而,這些技術的使用在時間和成本方面都耗費較大。
如果能夠僅從氨基酸序列中預測蛋白質結構,將大大有助於推進科學研究,可能會導致醫學和生物學理解的全面快速突破。
蛋白質摺疊涉及了決定摺疊穩定結構的原子間力的熱力學、蛋白質極快地達到其最終摺疊狀態的機制和途徑,以及如何從其氨基酸序列中預測蛋白質的天然結構等極其複雜問題。
之前,研究人員也應用了許多計算方法來解決蛋白質結構預測的問題,但除了小的簡單蛋白質外,它們的準確性並不接近實驗技術,從而限制了其價值。OpenFold 與 AlphaFold 2 等 AI 模型預計會在蛋白質摺疊問題上發揮越來越重要的作用。
-End-
參考:
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold