哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢

2022年06月30日00:02:02 科學 1517

哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞



近日,有專家復刻了 AlphaFold 2 模型,以讓大眾能更容易使用其功能。



該復刻版本名為 OpenFold,採用 PyTorch 框架。據 PyTorch 官網:「PyTorch 是一個開源機器學習框架,可加速從研究原型到生產部署的路徑。」



哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

(來源:GitHub)



AlphaFold 2 是由 AI 公司 DeepMind 開發的深度學習系統,最為人知的是被用於預測蛋白質結構。這可以看作 AI 用於推動科學研究的一個里程碑事件。



對於蛋白質結構的預測有望在生命科學領域產生各種各樣的好處,比如加速先進藥物的發現和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白質結構預測技術關鍵評估(CASP,Critical Assessment of protein Structure Prediction)比賽中總體排名第一(其第一代版本在 2018 年 12 月第 13 屆 CASP 大賽中同樣獲得第一)。這被認為是計算生物學的重大成就,也是朝着數十年來生物學的重大挑戰取得的巨大進展。



2021 年 7 月,用 AlphaFold 2 預測蛋白質結構的相關論文發表在 Nature,題為《用 AlphaFold 可以高精度地預測蛋白質結構》(Highly accurate protein structure prediction with AlphaFold)。同時,DeepMind 還向公眾公布了蛋白質組數據庫,並將 AlphaFold 2 開源。



但 AlphaFold 2 的實際部署比較困難,硬件要求、空間佔用、下載時間長等方面對普通開發者不夠友好。因此,相關專家和開源社區都在致力於打造一個方便使用的 AlphaFold 2 版本。



本次哥倫比亞大學系統生物學系助理教授穆罕默德·庫萊希(Mohammed AlQuraishi)表示, 他們構建的可訓練 OpenFold 模型是 AlphaFold 2 的第一個完整公開複製品,並已在 GitHub 開源。



哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

(來源:GitHub)



開發人員表示:「OpenFold 再現了(幾乎)原始開源推理代碼(v2.0.1)的所有功能。我們已經公開發佈了模型權重和訓練數據,大約 40 萬個 MSA(測量系統分析,Measurement Systems Analysis)和 PDB70 文件。」



據了解,模型權重可通過 GitHub 存儲庫中的腳本獲得,而 MSA 則由 AWS(Amazon Web Services,亞馬遜網絡服務)上的開放數據註冊表(RODA) 託管。OpenFold 的所有代碼都基於 PyTorch 環境,而 AlphaFold 2 是為 JAX 工作流開發的。此外,除了 AlphaFold 的官方參數,OpenFold 支持使用開發人員自己的 Colab notebook 進行推理。



然後,值得一提的是,相比原版 AlphaFold 2,OpenFold 甚至在推理速度、內存佔用方面要更具優勢。比如超長鏈的推理、更快的短鏈推理(速度約為 AlphaFold2 的兩倍)、高效的對齊腳本等方面。



研究者表示,在 40GB A100 上最多可以得到約 4600 個氨基酸殘基的序列結構,並可以進一步優化。憑藉新的可自定義 CUDA 注意內核,佔用的 GPU 內存比 FastFold 內核少近四倍。


根據 CAMEO 的驗證集上的 GDT_TS 分數,將 OpenFold 和 AlphaFold 2 比較,可以從下面的散點圖看到兩者的準確度十分接近。甚至平均而言 OpenFold 稍好。研究人員解釋說,可能是由於他們的訓練集更大。



哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

(來源:Twitter)


據了解,OpenFold 在 A100 GPU 上訓練了大約 10 萬個計算小時,但 90% 的最終精度僅在前 3000 個計算小時內就達到了。研究人員表示,在最初的快速增長之後,精度增益顯着減慢,儘管它仍然逐漸攀升。這對訓練 OpenFold 和 AlphaFold 2 變體具有重要意義。



他還提到,本次採用的 GPU 為英偉達發佈的 A100,後續希望能在較低端 GPU 上進行訓練。目前他們有一個 AlphaFold-Gap 選項,應該很快就會啟動並運行多聚體版本(使用 AF2-multimer 權重)。



研究者還表示,即將發表相關的預印本文章,其中包含在培訓和研究的大量細節。並說:「我們的 OpenFold 努力遠未結束。事實上,這只是一個開始。請繼續關注後續發佈的激動人心的消息。」



最後,蛋白質摺疊是科學家幾十年來一直面臨的一個問題。據維基百科:「蛋白質摺疊是蛋白質鏈被翻譯成其天然三維結構的物理過程,通常是蛋白質變得具有生物功能的『摺疊』構象。」



目前,對其的研究一般通過「X射線晶體學、冷凍電子顯微鏡和核磁共振」等技術進行實驗測定,然而,這些技術的使用在時間和成本方面都耗費較大。



如果能夠僅從氨基酸序列中預測蛋白質結構,將大大有助於推進科學研究,可能會導致醫學和生物學理解的全面快速突破。



蛋白質摺疊涉及了決定摺疊穩定結構的原子間力的熱力學、蛋白質極快地達到其最終摺疊狀態的機制和途徑,以及如何從其氨基酸序列中預測蛋白質的天然結構等極其複雜問題。


之前,研究人員也應用了許多計算方法來解決蛋白質結構預測的問題,但除了小的簡單蛋白質外,它們的準確性並不接近實驗技術,從而限制了其價值。OpenFold 與 AlphaFold 2 等 AI 模型預計會在蛋白質摺疊問題上發揮越來越重要的作用。


-End-



哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞



參考:
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold


哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞


哥大團隊發佈首個AlphaFold 2模型,在推理速度、內存佔用更具優勢 - 天天要聞

科學分類資訊推薦

研究發現消失的尼羅河支流 或助解開金字塔建造之謎 - 天天要聞

研究發現消失的尼羅河支流 或助解開金字塔建造之謎

新華社北京5月21日電 研究人員日前繪製出尼羅河一條現已乾涸的支流地圖,認為它可能幫助古埃及人建造了31座金字塔,包括著名的吉薩金字塔群。研究成果由最新一期英國《通訊-地球與環境》雜誌刊載。 埃及金字塔最集中的地區是自吉薩市向南至利什特村之間的一片沙漠。那裡距離尼羅河有數十公里遠,但發現了港口遺迹。埃及學家...
2023年重慶長江幹流監測到魚類93種 珍稀特有魚類出現頻率增加 - 天天要聞

2023年重慶長江幹流監測到魚類93種 珍稀特有魚類出現頻率增加

封面新聞記者 李茂佳在國際生物多樣性日來臨之際,5月21日,重慶市生態環境局舉行重慶市生物多樣性保護情況新聞發佈會。2023年,重慶長江幹流監測到魚類93種,較禁捕前增加47種。長江鱘從禁捕前監測到的7尾增加到249尾,珍稀特有魚類出現頻率增加,出現範圍擴大。新聞發佈會現場。重慶市生態環境局黨組成員、副局長陳衛表示...
全球首台!我國量子測量領域取得重要突破 - 天天要聞

全球首台!我國量子測量領域取得重要突破

5月21日,全國首屆量子精密測量賦能產業發展大會,在安徽合肥舉辦。會上,全球首台商用低溫版量子鑽石原子力顯微鏡正式亮相。該顯微鏡由國儀量子技術(合肥)股份有限公司(以下簡稱「國儀量子」)自主研製,這標誌着我國量子精密測量技術的產業化發展,取得重要突破。△低溫版量子鑽石原子力顯微鏡。圖片來源:國儀量子國...
世界首次:科學家成功對 μ 子實行「冷卻」加速,約達光速 4% - 天天要聞

世界首次:科學家成功對 μ 子實行「冷卻」加速,約達光速 4%

IT之家 5 月 21 日消息,日本 J-PARC 研究中心、日本高能加速器研究機構聯合發佈公報,宣布完成了業內首次對 μ 子進行「冷卻」和加速的操作,朝着實現世界首個 μ 子(渺子)加速器邁出了一大步。據介紹,研究團隊在 J-PARC 中心使帶一顆正電荷的正 μ 子減速到幾乎停止(光速的 0.002%)的狀態,並使正 μ 子的方向和速度...
氣象水文部門預測:今年「龍舟水」水情較往年略偏重 - 天天要聞

氣象水文部門預測:今年「龍舟水」水情較往年略偏重

5月20日迎來「小滿」節氣,民諺有雲「小滿小滿,江河漸滿」。進入「小滿」節氣,雨水豐盈,江河的水逐漸增多。根據廣州市水文氣象數據統計,5月20日廣州市降暴雨,其中白雲、花都、增城等區降大暴雨,全市平均日雨量74.0毫米。豆大雨點落在地面,濺起水花。圖/廣州日報新花城記者:吳子良受強降雨影響,5月20日全市江河水位...
值得收藏!《常州市野生鳥類圖冊》發佈 - 天天要聞

值得收藏!《常州市野生鳥類圖冊》發佈

現代快報訊(記者 陸文傑)鳥類是生物多樣性的重要指示類群,是評價生態系統健康狀況的關鍵性指標。隨着生態環境的改善,常州鳥類生境狀況大幅提升,越來越多的野生鳥類翱翔在青山綠水間,野外鳥類記錄不斷刷新,珍稀鳥類頻頻亮相。它們用翅膀為生態環境投票,實名認證了常州生物多樣性工作的豐碩成果。在5·22國際生物多樣...
馬斯克豪言:30年內火星城市崛起,人類新家園即將誕生! - 天天要聞

馬斯克豪言:30年內火星城市崛起,人類新家園即將誕生!

埃隆·馬斯克,這個科技界的狂人,他總是有着讓人震驚的想法和計劃。這不,他又在火星上動起了腦筋。他旗下的SpaceX公司,一直在研究怎麼把人送上火星,還在想方設法要在那上面建個城市。圖片來自網絡馬斯克在社交媒體上可是挺活躍的,他就在那兒說,未來30年,火星上肯定會有人類城市。
研究發現英國 AI 聊天機械人的安全措施容易被繞過 - 天天要聞

研究發現英國 AI 聊天機械人的安全措施容易被繞過

劃重點:- ️  英國政府研究人員發現,防止 AI 聊天機械人發出非法、有毒或露骨回應的保護措施可以被簡單的技術繞過。-   通過測試,研究人員發現五個系統 「極易受到攻擊」,甚至在沒有有針對性地繞過保護措施的情況下,也能產生有害回應。-   安全防護可以通過 「相當簡單」 的攻擊繞過,例如指示系統以 「當然,...