哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢

2022年06月30日00:02:02 科學 1517

哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞



近日,有專家復刻了 AlphaFold 2 模型,以讓大眾能更容易使用其功能。



該復刻版本名為 OpenFold,採用 PyTorch 框架。據 PyTorch 官網:“PyTorch 是一個開源機器學習框架,可加速從研究原型到生產部署的路徑。”



哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

(來源:GitHub)



AlphaFold 2 是由 AI 公司 DeepMind 開發的深度學習系統,最為人知的是被用於預測蛋白質結構。這可以看作 AI 用於推動科學研究的一個里程碑事件。



對於蛋白質結構的預測有望在生命科學領域產生各種各樣的好處,比如加速先進藥物的發現和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白質結構預測技術關鍵評估(CASP,Critical Assessment of protein Structure Prediction)比賽中總體排名第一(其第一代版本在 2018 年 12 月第 13 屆 CASP 大賽中同樣獲得第一)。這被認為是計算生物學的重大成就,也是朝着數十年來生物學的重大挑戰取得的巨大進展。



2021 年 7 月,用 AlphaFold 2 預測蛋白質結構的相關論文發表在 Nature,題為《用 AlphaFold 可以高精度地預測蛋白質結構》(Highly accurate protein structure prediction with AlphaFold)。同時,DeepMind 還向公眾公布了蛋白質組數據庫,並將 AlphaFold 2 開源。



但 AlphaFold 2 的實際部署比較困難,硬件要求、空間佔用、下載時間長等方面對普通開發者不夠友好。因此,相關專家和開源社區都在致力於打造一個方便使用的 AlphaFold 2 版本。



本次哥倫比亞大學系統生物學系助理教授穆罕默德·庫萊希(Mohammed AlQuraishi)表示, 他們構建的可訓練 OpenFold 模型是 AlphaFold 2 的第一個完整公開複製品,並已在 GitHub 開源。



哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

(來源:GitHub)



開發人員表示:“OpenFold 再現了(幾乎)原始開源推理代碼(v2.0.1)的所有功能。我們已經公開發布了模型權重和訓練數據,大約 40 萬個 MSA(測量系統分析,Measurement Systems Analysis)和 PDB70 文件。”



據了解,模型權重可通過 GitHub 存儲庫中的腳本獲得,而 MSA 則由 AWS(Amazon Web Services,亞馬遜網絡服務)上的開放數據註冊表(RODA) 託管。OpenFold 的所有代碼都基於 PyTorch 環境,而 AlphaFold 2 是為 JAX 工作流開發的。此外,除了 AlphaFold 的官方參數,OpenFold 支持使用開發人員自己的 Colab notebook 進行推理。



然後,值得一提的是,相比原版 AlphaFold 2,OpenFold 甚至在推理速度、內存佔用方面要更具優勢。比如超長鏈的推理、更快的短鏈推理(速度約為 AlphaFold2 的兩倍)、高效的對齊腳本等方面。



研究者表示,在 40GB A100 上最多可以得到約 4600 個氨基酸殘基的序列結構,並可以進一步優化。憑藉新的可自定義 CUDA 注意內核,佔用的 GPU 內存比 FastFold 內核少近四倍。


根據 CAMEO 的驗證集上的 GDT_TS 分數,將 OpenFold 和 AlphaFold 2 比較,可以從下面的散點圖看到兩者的準確度十分接近。甚至平均而言 OpenFold 稍好。研究人員解釋說,可能是由於他們的訓練集更大。



哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

(來源:Twitter)


據了解,OpenFold 在 A100 GPU 上訓練了大約 10 萬個計算小時,但 90% 的最終精度僅在前 3000 個計算小時內就達到了。研究人員表示,在最初的快速增長之後,精度增益顯着減慢,儘管它仍然逐漸攀升。這對訓練 OpenFold 和 AlphaFold 2 變體具有重要意義。



他還提到,本次採用的 GPU 為英偉達發布的 A100,後續希望能在較低端 GPU 上進行訓練。目前他們有一個 AlphaFold-Gap 選項,應該很快就會啟動並運行多聚體版本(使用 AF2-multimer 權重)。



研究者還表示,即將發表相關的預印本文章,其中包含在培訓和研究的大量細節。並說:“我們的 OpenFold 努力遠未結束。事實上,這只是一個開始。請繼續關注後續發布的激動人心的消息。”



最後,蛋白質摺疊是科學家幾十年來一直面臨的一個問題。據維基百科:“蛋白質摺疊是蛋白質鏈被翻譯成其天然三維結構的物理過程,通常是蛋白質變得具有生物功能的‘摺疊’構象。”



目前,對其的研究一般通過“X射線晶體學、冷凍電子顯微鏡和核磁共振”等技術進行實驗測定,然而,這些技術的使用在時間和成本方面都耗費較大。



如果能夠僅從氨基酸序列中預測蛋白質結構,將大大有助於推進科學研究,可能會導致醫學和生物學理解的全面快速突破。



蛋白質摺疊涉及了決定摺疊穩定結構的原子間力的熱力學、蛋白質極快地達到其最終摺疊狀態的機制和途徑,以及如何從其氨基酸序列中預測蛋白質的天然結構等極其複雜問題。


之前,研究人員也應用了許多計算方法來解決蛋白質結構預測的問題,但除了小的簡單蛋白質外,它們的準確性並不接近實驗技術,從而限制了其價值。OpenFold 與 AlphaFold 2 等 AI 模型預計會在蛋白質摺疊問題上發揮越來越重要的作用。


-End-



哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞



參考:
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold


哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞


哥大團隊發布首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

科學分類資訊推薦

星空有約|我國首顆探日衛星“羲和號”又有新發現 - 天天要聞

星空有約|我國首顆探日衛星“羲和號”又有新發現

記者從南京大學獲悉,該校與中國科學院雲南天文台、中國航天科技集團有限公司第八研究院的科研人員通過分析我國首顆探日衛星“羲和號”的觀測數據,精確繪製出國際首個太陽大氣自轉的三維圖像。相關論文6月13日發表在國際學術期刊《自然·天文學》上。
華為闢謠!劉姝威未能拯救“把世界掰彎”的獨角獸 - 天天要聞

華為闢謠!劉姝威未能拯救“把世界掰彎”的獨角獸

作者 | 李佳蔓來源 | 藍血研究(lanxueyanjiu)投稿 | lanxueziben(微信)城市合伙人招募 | lanxueziben(微信)曾經風光無限的柔性屏獨角獸柔宇科技如今陷入困境,破產清算程序已啟動。與此同時,華為針對網絡上流傳的投資柔宇傳聞進行闢謠,明確表示未有投資計劃。柔宇的衰落究竟是何原因?科技企業的生存挑戰又有...
新材料行業有望受“科特估”提振,科創新材料ETF(588010)強勢上漲2.15%,衝擊3連漲 - 天天要聞

新材料行業有望受“科特估”提振,科創新材料ETF(588010)強勢上漲2.15%,衝擊3連漲

截至2024年6月13日 13:36,上證科創板新材料指數(000689)強勢上漲1.93%,成分股天承科技上漲15.61%,方邦股份上漲9.35%,康鵬科技上漲6.98%,菲沃泰,斯瑞新材等個股跟漲。科創新材料ETF(588010)上漲2.15%,衝擊3連漲。最新價報0.52元,盤中成交額已達1124.18萬元,換手率14.29%,市場交投活躍。值得注意的
古老茶山遇上衛星,老電影遇上新技術!如此“新質”獲全國記者點贊【東南風好揚新帆】 - 天天要聞

古老茶山遇上衛星,老電影遇上新技術!如此“新質”獲全國記者點贊【東南風好揚新帆】

當古老茶山遇到高精尖衛星當膠片電影遇到前沿數字修復技術會產生怎樣的奇妙化學反應?在福建安溪這一切已不再是想象! 6月12日下午,東南風好揚“新”帆——廣電融媒體總編記者福建新質生產力採訪團走進福建安溪縣,來到充滿科技氣息的數字福建(安溪)產業園展示中心,探秘空天大數據如何為茶山披上智慧外衣,體驗數字化...
促進前沿科技落地泉城 | 訪大灣區大學(籌)教授於華 - 天天要聞

促進前沿科技落地泉城 | 訪大灣區大學(籌)教授於華

6月12日,濟南第二屆“海右人才節”開幕式暨濟南校友經濟創新發展大會正式舉行,英國皇家化學學會會士、大灣區大學(籌)教授於華受邀參加活動。據了解,於華長期致力於探索納米薄膜材料在新一代光伏技術和碳中和領域的應用。
探秘人類從誕生到現在出生了多少人數 - 天天要聞

探秘人類從誕生到現在出生了多少人數

你是否好奇過人類從誕生到現在總共出生了多少人?讓我們一起揭秘。人類的歷史可以追溯到數百萬年前,但直到最近幾千年,我們的人口數量才有了顯著的增長。根據歷史記錄和科學研究,我們可以大致估算出人類歷史上出生的人口數量。從最早的石器時代到現代科技文
全球變暖致高溫頻發,極端氣候來襲,人類未來何去何從? - 天天要聞

全球變暖致高溫頻發,極端氣候來襲,人類未來何去何從?

盛夏季節,北地高溫頻現,南方降雨頻繁。作為對氣候變化有深入研究的專家,我深知氣溫升高所帶來的巨大影響以及它正在改變我們的日常生活和未來走向。全球變暖對高溫天氣的影響全球變暖進程已成定局,對地球氣候環境產生深遠影響並導致顯著變化。高溫天氣頻發
白蟻“全軍出擊”了 ,漫天飛舞!6招制敵方法送上 - 天天要聞

白蟻“全軍出擊”了 ,漫天飛舞!6招制敵方法送上

據“上海疾控”微信公號消息,近日,申城天氣潮濕悶熱,白蟻集中出飛衝擊紗窗,漫天飛舞!上海白蟻,毫無疑問地衝上熱搜。  小夥伴紛紛表示:到處亂飛,還在地上爬,翅膀黏在一起,啊啊啊啊啊啊,好嚇人啊!   路燈下的白蟻飛舞,更是明目張胆“放飛自我”   就算紗窗擋着進不來,那些神通廣大的白蟻還會從縫隙里鑽...