哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势

2022年06月30日00:02:02 科学 1517

哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻



近日,有专家复刻了 AlphaFold 2 模型,以让大众能更容易使用其功能。



该复刻版本名为 OpenFold,采用 PyTorch 框架。据 PyTorch 官网:“PyTorch 是一个开源机器学习框架,可加速从研究原型到生产部署的路径。”



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

(来源:GitHub)



AlphaFold 2 是由 AI 公司 DeepMind 开发的深度学习系统,最为人知的是被用于预测蛋白质结构。这可以看作 AI 用于推动科学研究的一个里程碑事件。



对于蛋白质结构的预测有望在生命科学领域产生各种各样的好处,比如加速先进药物的发现和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白质结构预测技术关键评估(CASP,Critical Assessment of protein Structure Prediction)比赛中总体排名第一(其第一代版本在 2018 年 12 月第 13 届 CASP 大赛中同样获得第一)。这被认为是计算生物学的重大成就,也是朝着数十年来生物学的重大挑战取得的巨大进展。



2021 年 7 月,用 AlphaFold 2 预测蛋白质结构的相关论文发表在 Nature,题为《用 AlphaFold 可以高精度地预测蛋白质结构》(Highly accurate protein structure prediction with AlphaFold)。同时,DeepMind 还向公众公布了蛋白质组数据库,并将 AlphaFold 2 开源。



但 AlphaFold 2 的实际部署比较困难,硬件要求、空间占用、下载时间长等方面对普通开发者不够友好。因此,相关专家和开源社区都在致力于打造一个方便使用的 AlphaFold 2 版本。



本次哥伦比亚大学系统生物学系助理教授穆罕默德·库莱希(Mohammed AlQuraishi)表示, 他们构建的可训练 OpenFold 模型是 AlphaFold 2 的第一个完整公开复制品,并已在 GitHub 开源。



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

(来源:GitHub)



开发人员表示:“OpenFold 再现了(几乎)原始开源推理代码(v2.0.1)的所有功能。我们已经公开发布了模型权重和训练数据,大约 40 万个 MSA(测量系统分析,Measurement Systems Analysis)和 PDB70 文件。”



据了解,模型权重可通过 GitHub 存储库中的脚本获得,而 MSA 则由 AWS(Amazon Web Services,亚马逊网络服务)上的开放数据注册表(RODA) 托管。OpenFold 的所有代码都基于 PyTorch 环境,而 AlphaFold 2 是为 JAX 工作流开发的。此外,除了 AlphaFold 的官方参数,OpenFold 支持使用开发人员自己的 Colab notebook 进行推理。



然后,值得一提的是,相比原版 AlphaFold 2,OpenFold 甚至在推理速度、内存占用方面要更具优势。比如超长链的推理、更快的短链推理(速度约为 AlphaFold2 的两倍)、高效的对齐脚本等方面。



研究者表示,在 40GB A100 上最多可以得到约 4600 个氨基酸残基的序列结构,并可以进一步优化。凭借新的可自定义 CUDA 注意内核,占用的 GPU 内存比 FastFold 内核少近四倍。


根据 CAMEO 的验证集上的 GDT_TS 分数,将 OpenFold 和 AlphaFold 2 比较,可以从下面的散点图看到两者的准确度十分接近。甚至平均而言 OpenFold 稍好。研究人员解释说,可能是由于他们的训练集更大。



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

(来源:Twitter)


据了解,OpenFold 在 A100 GPU 上训练了大约 10 万个计算小时,但 90% 的最终精度仅在前 3000 个计算小时内就达到了。研究人员表示,在最初的快速增长之后,精度增益显着减慢,尽管它仍然逐渐攀升。这对训练 OpenFold 和 AlphaFold 2 变体具有重要意义。



他还提到,本次采用的 GPU 为英伟达发布的 A100,后续希望能在较低端 GPU 上进行训练。目前他们有一个 AlphaFold-Gap 选项,应该很快就会启动并运行多聚体版本(使用 AF2-multimer 权重)。



研究者还表示,即将发表相关的预印本文章,其中包含在培训和研究的大量细节。并说:“我们的 OpenFold 努力远未结束。事实上,这只是一个开始。请继续关注后续发布的激动人心的消息。”



最后,蛋白质折叠是科学家几十年来一直面临的一个问题。据维基百科:“蛋白质折叠是蛋白质链被翻译成其天然三维结构的物理过程,通常是蛋白质变得具有生物功能的‘折叠’构象。”



目前,对其的研究一般通过“X射线晶体学、冷冻电子显微镜和核磁共振”等技术进行实验测定,然而,这些技术的使用在时间和成本方面都耗费较大。



如果能够仅从氨基酸序列中预测蛋白质结构,将大大有助于推进科学研究,可能会导致医学和生物学理解的全面快速突破。



蛋白质折叠涉及了决定折叠稳定结构的原子间力的热力学、蛋白质极快地达到其最终折叠状态的机制和途径,以及如何从其氨基酸序列中预测蛋白质的天然结构等极其复杂问题。


之前,研究人员也应用了许多计算方法来解决蛋白质结构预测的问题,但除了小的简单蛋白质外,它们的准确性并不接近实验技术,从而限制了其价值。OpenFold 与 AlphaFold 2 等 AI 模型预计会在蛋白质折叠问题上发挥越来越重要的作用。


-End-



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻



参考:
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold


哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻


哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

科学分类资讯推荐

星空有约|我国首颗探日卫星“羲和号”又有新发现 - 天天要闻

星空有约|我国首颗探日卫星“羲和号”又有新发现

记者从南京大学获悉,该校与中国科学院云南天文台、中国航天科技集团有限公司第八研究院的科研人员通过分析我国首颗探日卫星“羲和号”的观测数据,精确绘制出国际首个太阳大气自转的三维图像。相关论文6月13日发表在国际学术期刊《自然·天文学》上。
华为辟谣!刘姝威未能拯救“把世界掰弯”的独角兽 - 天天要闻

华为辟谣!刘姝威未能拯救“把世界掰弯”的独角兽

作者 | 李佳蔓来源 | 蓝血研究(lanxueyanjiu)投稿 | lanxueziben(微信)城市合伙人招募 | lanxueziben(微信)曾经风光无限的柔性屏独角兽柔宇科技如今陷入困境,破产清算程序已启动。与此同时,华为针对网络上流传的投资柔宇传闻进行辟谣,明确表示未有投资计划。柔宇的衰落究竟是何原因?科技企业的生存挑战又有...
新材料行业有望受“科特估”提振,科创新材料ETF(588010)强势上涨2.15%,冲击3连涨 - 天天要闻

新材料行业有望受“科特估”提振,科创新材料ETF(588010)强势上涨2.15%,冲击3连涨

截至2024年6月13日 13:36,上证科创板新材料指数(000689)强势上涨1.93%,成分股天承科技上涨15.61%,方邦股份上涨9.35%,康鹏科技上涨6.98%,菲沃泰,斯瑞新材等个股跟涨。科创新材料ETF(588010)上涨2.15%,冲击3连涨。最新价报0.52元,盘中成交额已达1124.18万元,换手率14.29%,市场交投活跃。值得注意的
古老茶山遇上卫星,老电影遇上新技术!如此“新质”获全国记者点赞【东南风好扬新帆】 - 天天要闻

古老茶山遇上卫星,老电影遇上新技术!如此“新质”获全国记者点赞【东南风好扬新帆】

当古老茶山遇到高精尖卫星当胶片电影遇到前沿数字修复技术会产生怎样的奇妙化学反应?在福建安溪这一切已不再是想象! 6月12日下午,东南风好扬“新”帆——广电融媒体总编记者福建新质生产力采访团走进福建安溪县,来到充满科技气息的数字福建(安溪)产业园展示中心,探秘空天大数据如何为茶山披上智慧外衣,体验数字化...
促进前沿科技落地泉城 | 访大湾区大学(筹)教授于华 - 天天要闻

促进前沿科技落地泉城 | 访大湾区大学(筹)教授于华

6月12日,济南第二届“海右人才节”开幕式暨济南校友经济创新发展大会正式举行,英国皇家化学学会会士、大湾区大学(筹)教授于华受邀参加活动。据了解,于华长期致力于探索纳米薄膜材料在新一代光伏技术和碳中和领域的应用。
探秘人类从诞生到现在出生了多少人数 - 天天要闻

探秘人类从诞生到现在出生了多少人数

你是否好奇过人类从诞生到现在总共出生了多少人?让我们一起揭秘。人类的历史可以追溯到数百万年前,但直到最近几千年,我们的人口数量才有了显著的增长。根据历史记录和科学研究,我们可以大致估算出人类历史上出生的人口数量。从最早的石器时代到现代科技文
全球变暖致高温频发,极端气候来袭,人类未来何去何从? - 天天要闻

全球变暖致高温频发,极端气候来袭,人类未来何去何从?

盛夏季节,北地高温频现,南方降雨频繁。作为对气候变化有深入研究的专家,我深知气温升高所带来的巨大影响以及它正在改变我们的日常生活和未来走向。全球变暖对高温天气的影响全球变暖进程已成定局,对地球气候环境产生深远影响并导致显著变化。高温天气频发
白蚁“全军出击”了 ,漫天飞舞!6招制敌方法送上 - 天天要闻

白蚁“全军出击”了 ,漫天飞舞!6招制敌方法送上

据“上海疾控”微信公号消息,近日,申城天气潮湿闷热,白蚁集中出飞冲击纱窗,漫天飞舞!上海白蚁,毫无疑问地冲上热搜。  小伙伴纷纷表示:到处乱飞,还在地上爬,翅膀黏在一起,啊啊啊啊啊啊,好吓人啊!   路灯下的白蚁飞舞,更是明目张胆“放飞自我”   就算纱窗挡着进不来,那些神通广大的白蚁还会从缝隙里钻...