哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势

2022年06月30日00:02:02 科学 1517

哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻



近日,有专家复刻了 AlphaFold 2 模型,以让大众能更容易使用其功能。



该复刻版本名为 OpenFold,采用 PyTorch 框架。据 PyTorch 官网:“PyTorch 是一个开源机器学习框架,可加速从研究原型到生产部署的路径。”



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

(来源:GitHub)



AlphaFold 2 是由 AI 公司 DeepMind 开发的深度学习系统,最为人知的是被用于预测蛋白质结构。这可以看作 AI 用于推动科学研究的一个里程碑事件。



对于蛋白质结构的预测有望在生命科学领域产生各种各样的好处,比如加速先进药物的发现和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白质结构预测技术关键评估(CASP,Critical Assessment of protein Structure Prediction)比赛中总体排名第一(其第一代版本在 2018 年 12 月第 13 届 CASP 大赛中同样获得第一)。这被认为是计算生物学的重大成就,也是朝着数十年来生物学的重大挑战取得的巨大进展。



2021 年 7 月,用 AlphaFold 2 预测蛋白质结构的相关论文发表在 Nature,题为《用 AlphaFold 可以高精度地预测蛋白质结构》(Highly accurate protein structure prediction with AlphaFold)。同时,DeepMind 还向公众公布了蛋白质组数据库,并将 AlphaFold 2 开源。



但 AlphaFold 2 的实际部署比较困难,硬件要求、空间占用、下载时间长等方面对普通开发者不够友好。因此,相关专家和开源社区都在致力于打造一个方便使用的 AlphaFold 2 版本。



本次哥伦比亚大学系统生物学系助理教授穆罕默德·库莱希(Mohammed AlQuraishi)表示, 他们构建的可训练 OpenFold 模型是 AlphaFold 2 的第一个完整公开复制品,并已在 GitHub 开源。



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

(来源:GitHub)



开发人员表示:“OpenFold 再现了(几乎)原始开源推理代码(v2.0.1)的所有功能。我们已经公开发布了模型权重和训练数据,大约 40 万个 MSA(测量系统分析,Measurement Systems Analysis)和 PDB70 文件。”



据了解,模型权重可通过 GitHub 存储库中的脚本获得,而 MSA 则由 AWS(Amazon Web Services,亚马逊网络服务)上的开放数据注册表(RODA) 托管。OpenFold 的所有代码都基于 PyTorch 环境,而 AlphaFold 2 是为 JAX 工作流开发的。此外,除了 AlphaFold 的官方参数,OpenFold 支持使用开发人员自己的 Colab notebook 进行推理。



然后,值得一提的是,相比原版 AlphaFold 2,OpenFold 甚至在推理速度、内存占用方面要更具优势。比如超长链的推理、更快的短链推理(速度约为 AlphaFold2 的两倍)、高效的对齐脚本等方面。



研究者表示,在 40GB A100 上最多可以得到约 4600 个氨基酸残基的序列结构,并可以进一步优化。凭借新的可自定义 CUDA 注意内核,占用的 GPU 内存比 FastFold 内核少近四倍。


根据 CAMEO 的验证集上的 GDT_TS 分数,将 OpenFold 和 AlphaFold 2 比较,可以从下面的散点图看到两者的准确度十分接近。甚至平均而言 OpenFold 稍好。研究人员解释说,可能是由于他们的训练集更大。



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

(来源:Twitter)


据了解,OpenFold 在 A100 GPU 上训练了大约 10 万个计算小时,但 90% 的最终精度仅在前 3000 个计算小时内就达到了。研究人员表示,在最初的快速增长之后,精度增益显着减慢,尽管它仍然逐渐攀升。这对训练 OpenFold 和 AlphaFold 2 变体具有重要意义。



他还提到,本次采用的 GPU 为英伟达发布的 A100,后续希望能在较低端 GPU 上进行训练。目前他们有一个 AlphaFold-Gap 选项,应该很快就会启动并运行多聚体版本(使用 AF2-multimer 权重)。



研究者还表示,即将发表相关的预印本文章,其中包含在培训和研究的大量细节。并说:“我们的 OpenFold 努力远未结束。事实上,这只是一个开始。请继续关注后续发布的激动人心的消息。”



最后,蛋白质折叠是科学家几十年来一直面临的一个问题。据维基百科:“蛋白质折叠是蛋白质链被翻译成其天然三维结构的物理过程,通常是蛋白质变得具有生物功能的‘折叠’构象。”



目前,对其的研究一般通过“X射线晶体学、冷冻电子显微镜和核磁共振”等技术进行实验测定,然而,这些技术的使用在时间和成本方面都耗费较大。



如果能够仅从氨基酸序列中预测蛋白质结构,将大大有助于推进科学研究,可能会导致医学和生物学理解的全面快速突破。



蛋白质折叠涉及了决定折叠稳定结构的原子间力的热力学、蛋白质极快地达到其最终折叠状态的机制和途径,以及如何从其氨基酸序列中预测蛋白质的天然结构等极其复杂问题。


之前,研究人员也应用了许多计算方法来解决蛋白质结构预测的问题,但除了小的简单蛋白质外,它们的准确性并不接近实验技术,从而限制了其价值。OpenFold 与 AlphaFold 2 等 AI 模型预计会在蛋白质折叠问题上发挥越来越重要的作用。


-End-



哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻



参考:
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold


哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻


哥大团队发布首个AlphaFold 2模型,在推理速度、内存占用更具优势 - 天天要闻

科学分类资讯推荐

研究发现消失的尼罗河支流 或助解开金字塔建造之谜 - 天天要闻

研究发现消失的尼罗河支流 或助解开金字塔建造之谜

新华社北京5月21日电 研究人员日前绘制出尼罗河一条现已干涸的支流地图,认为它可能帮助古埃及人建造了31座金字塔,包括著名的吉萨金字塔群。研究成果由最新一期英国《通讯-地球与环境》杂志刊载。 埃及金字塔最集中的地区是自吉萨市向南至利什特村之间的一片沙漠。那里距离尼罗河有数十公里远,但发现了港口遗迹。埃及学家...
2023年重庆长江干流监测到鱼类93种 珍稀特有鱼类出现频率增加 - 天天要闻

2023年重庆长江干流监测到鱼类93种 珍稀特有鱼类出现频率增加

封面新闻记者 李茂佳在国际生物多样性日来临之际,5月21日,重庆市生态环境局举行重庆市生物多样性保护情况新闻发布会。2023年,重庆长江干流监测到鱼类93种,较禁捕前增加47种。长江鲟从禁捕前监测到的7尾增加到249尾,珍稀特有鱼类出现频率增加,出现范围扩大。新闻发布会现场。重庆市生态环境局党组成员、副局长陈卫表示...
全球首台!我国量子测量领域取得重要突破 - 天天要闻

全球首台!我国量子测量领域取得重要突破

5月21日,全国首届量子精密测量赋能产业发展大会,在安徽合肥举办。会上,全球首台商用低温版量子钻石原子力显微镜正式亮相。该显微镜由国仪量子技术(合肥)股份有限公司(以下简称“国仪量子”)自主研制,这标志着我国量子精密测量技术的产业化发展,取得重要突破。△低温版量子钻石原子力显微镜。图片来源:国仪量子国...
世界首次:科学家成功对 μ 子实行“冷却”加速,约达光速 4% - 天天要闻

世界首次:科学家成功对 μ 子实行“冷却”加速,约达光速 4%

IT之家 5 月 21 日消息,日本 J-PARC 研究中心、日本高能加速器研究机构联合发布公报,宣布完成了业内首次对 μ 子进行“冷却”和加速的操作,朝着实现世界首个 μ 子(渺子)加速器迈出了一大步。据介绍,研究团队在 J-PARC 中心使带一颗正电荷的正 μ 子减速到几乎停止(光速的 0.002%)的状态,并使正 μ 子的方向和速度...
气象水文部门预测:今年“龙舟水”水情较往年略偏重 - 天天要闻

气象水文部门预测:今年“龙舟水”水情较往年略偏重

5月20日迎来“小满”节气,民谚有云“小满小满,江河渐满”。进入“小满”节气,雨水丰盈,江河的水逐渐增多。根据广州市水文气象数据统计,5月20日广州市降暴雨,其中白云、花都、增城等区降大暴雨,全市平均日雨量74.0毫米。豆大雨点落在地面,溅起水花。图/广州日报新花城记者:吴子良受强降雨影响,5月20日全市江河水位...
值得收藏!《常州市野生鸟类图册》发布 - 天天要闻

值得收藏!《常州市野生鸟类图册》发布

现代快报讯(记者 陆文杰)鸟类是生物多样性的重要指示类群,是评价生态系统健康状况的关键性指标。随着生态环境的改善,常州鸟类生境状况大幅提升,越来越多的野生鸟类翱翔在青山绿水间,野外鸟类记录不断刷新,珍稀鸟类频频亮相。它们用翅膀为生态环境投票,实名认证了常州生物多样性工作的丰硕成果。在5·22国际生物多样...
马斯克豪言:30年内火星城市崛起,人类新家园即将诞生! - 天天要闻

马斯克豪言:30年内火星城市崛起,人类新家园即将诞生!

埃隆·马斯克,这个科技界的狂人,他总是有着让人震惊的想法和计划。这不,他又在火星上动起了脑筋。他旗下的SpaceX公司,一直在研究怎么把人送上火星,还在想方设法要在那上面建个城市。图片来自网络马斯克在社交媒体上可是挺活跃的,他就在那儿说,未来30年,火星上肯定会有人类城市。
研究发现英国 AI 聊天机器人的安全措施容易被绕过 - 天天要闻

研究发现英国 AI 聊天机器人的安全措施容易被绕过

划重点:- ️  英国政府研究人员发现,防止 AI 聊天机器人发出非法、有毒或露骨回应的保护措施可以被简单的技术绕过。-   通过测试,研究人员发现五个系统 “极易受到攻击”,甚至在没有有针对性地绕过保护措施的情况下,也能产生有害回应。-   安全防护可以通过 “相当简单” 的攻击绕过,例如指示系统以 “当然,...