湖南大学具有化学意识深度学习框架,准确预测分子特性和药物靶点

2022年11月24日16:51:04 科学 1020

编辑 | 绿萝

药物的临床疗效和安全性取决于其在人体中的分子特性和靶点。然而,对人类甚至动物模型中的所有化合物进行蛋白质组范围的评估具有挑战性。

近日,来自湖南大学的研究人员开发了一个名为 ImageMol 的无监督预训练深度学习框架,具有化学意识,用于从大规模分子图像中学习分子结构。为计算药物发现提供了一个强大的预训练深度学习框架。

与最先进的方法相比,ImageMol有两个重要的改进:(1)它利用分子图像作为化合物的特征表示,具有高精度和低计算成本;(2) 它利用无监督的预训练学习框架从人类蛋白质组中具有不同生物活性的 1000 万种药物样化合物中捕获分子图像的结构信息。

该研究以《Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework》为题,于 2022 年 11 月 21 日发布在《Nature Machine Intelligence》上。

湖南大学具有化学意识深度学习框架,准确预测分子特性和药物靶点 - 天天要闻

论文链接:https://www.nature.com/articles/s42256-022-00557-6

尽管生物医学研究和技术取得了进展,但药物发现和开发仍然是一项具有挑战性的多维任务,需要优化候选化合物的重要特性,包括药代动力学、功效和安全性。传统的实验方法在蛋白质组范围内对人类甚至动物模型中所有候选化合物的分子靶标进行评估是不可行的。计算方法和技术被认为是一种有前途的解决方案,可以在整个药物发现和开发过程中大大减少成本和时间。

人工智能技术应用于药物设计和目标识别。基本挑战之一是如何从化学结构中学习分子表征。传统的分子表示方法依赖于大量的领域知识来提取分子特征。

随着自然语言处理中无监督学习的兴起,最近的方法将无监督学习与一维序列字符串相结合,例如简化的分子输入行输入系统(SMILES)和国际化学标识符(InChI),或二维图。然而,它们在提取用于描述分子身份和分子生物学特征的信息向量方面的准确性是有限的。计算机视觉无监督学习的最新进展表明,可以将无监督的基于图像的预训练模型应用于计算药物发现。

在此,湖南大学研究团队提出了一个名为 ImageMol 的无监督预训练深度学习框架,对 1000 万个未标记的类药物生物活性分子进行了预训练,以预测候选化合物的分子靶点。ImageMol 框架旨在根据来自像素的分子的局部和全局结构特征,从未标记的分子图像中预训练化学表征。

湖南大学具有化学意识深度学习框架,准确预测分子特性和药物靶点 - 天天要闻

图 1:ImageMol 框架。(来源:论文)

ImageMol 框架

研究人员开发了一个预训练深度学习框架 ImageMol,用于准确预测分子靶点。ImageMol 预训练了来自 PubChem 数据库的 9,999,918 张类药物生物活性分子图像。研究人员组装了五个借口任务来提取生物学相关的结构信息:(1)分子编码器旨在从约 1000 万个分子图像中提取潜在特征;(2) 五种预训练策略用于通过考虑分子图像中的化学知识和结构信息来优化分子编码器的潜在表示;(3) 预训练分子编码器针对下游任务进行微调,以进一步提高模型性能。

ImageMol 的基准评估

研究人员展示了 ImageMol 在评估 51 个基准数据集的分子特性(即药物的代谢、脑渗透和毒性)和分子靶点概况(即 β-分泌酶和激酶)方面的高性能。

首先使用八种类型的药物发现基准数据集评估了 ImageMol 的性能,然后,使用三种流行的split 策略(scaffold split、balanced scaffold split 和 random scaffold split )来评估 ImageMol 在所有基准数据集上的性能。

湖南大学具有化学意识深度学习框架,准确预测分子特性和药物靶点 - 天天要闻

图 2:使用基准数据集对 ImageMol 进行性能评估。(来源:论文)

在分类任务中,使用接受者操作特征 (ROC) 曲线 (AUC) 下的面积,ImageMol 实现了高 AUC 值(图 2a)。此外,ImageMol 在 BBBP 和 BACE 数据集上的概率分布相似度大于 95%,表明 ImageMol 在训练过程中具有较高的一致性和稳定性。

图 2c 显示,与三种最先进的基于分子图像的表示模型相比,ImageMol 在预测五种主要药物代谢酶的抑制剂与非抑制剂方面也实现了更高的 AUC 值(范围从 0.799 到 0.893)。

进一步将 ImageMol 的性能与三种最先进的分子表示模型进行了比较:(1) 基于指纹的模型,(2) 基于序列的模型和 (3) 基于图形的模型。如图 2d、e 所示,与使用 random scaffold split 的基于指纹、基于序列和基于图形的模型相比,ImageMol 具有更好的性能。

在化合物-蛋白质结合预测任务中,与现有方法相比,ImageMol 在十个 GPCR(回归任务)和十个激酶(分类任务)上取得了更好的性能。

进一步使用 McNemar 检验来评估最先进模型和 ImageMol 之间性能差异的统计显着性。与多个数据集上的现有方法相比,ImageMol 显示出统计上更高的性能。

总之,ImageMol 在各种药物发现任务中实现了改进的性能,优于最先进的方法。

ImageMol 在国家转化科学推进中心的 13 个高通量实验数据集中显示了识别抗 SARS-CoV-2 分子的高精度。通过 ImageMol,确定了用于潜在治疗 COVID-19 的候选临床 3C 样蛋白酶抑制剂。

ImageMol 的生物学解释

接下来,使用 t-SNE 可视化来自不同模型的分子表示,以测试 ImageMol 的生物学解释。研究人员使用由多粒度化学簇分类 (MG3C) 任务(方法)识别的簇来拆分分子结构。研究发现 ImageMol 可以很好地区分分子结构,优于 MACCS 指纹和非预训练模型。ImageMol 可以从分子图像表示中捕获化学信息的先验知识,包括 =O 键、-OH 键、-NH3 键和苯环。进一步使用 Davies–Bouldin (DB) 索引来定量评估聚类结果:较小的 DB 索引表示更好的性能。研究发现 ImageMol(DB 指数 1.92)优于 MACCS 指纹(DB 指数 2.93);此外,预训练模型也可以大大提高分子表征(ImageMol 没有预训练的 DB 指数为 19.40)。

湖南大学具有化学意识深度学习框架,准确预测分子特性和药物靶点 - 天天要闻

图 3:ImageMol 的生物学解释。(来源:论文)

梯度加权类激活映射 (Grad-CAM) 是一种常用的 CNN 可视化方法。说明 ImageMol 的 Grad-CAM 可视化的 12 个示例分子。ImageMol 同时准确地捕获对全局和局部结构信息的关注。ImageMol 是根据分子结构进行预测,而不是使用无意义的空白区域。

然后,进一步计算了粗粒度和细粒度的命中率。粗粒度命中率说明 ImageMol 可以利用所有图像的分子结构进行推理,比率为 100%,而 QSAR-CNN 模型 为 90.7%。细粒度命中率表明 ImageMol 可以利用分子图像中几乎所有的结构信息进行推理,比例超过 99%,体现了其捕获分子全局信息的能力。

总之,ImageMol 捕获分子图像的生物学相关化学信息,优于现有的最先进的深度学习方法。

潜在方向的改进

几个潜在的方向可能会进一步改进 ImageMol:(1)更大规模的生物医学数据和更大容量的分子图像模型的集成必然是未来工作的重点;(2) 联合图像和其他表示(例如 SMILES 和图形)的多视图学习是一个重要的研究方向;(3)将更多的化学知识(如原子性质、化学性质和 3D 结构信息)融入到每个图像或像素区域中也是一个很有前途的未来方向。

总之,ImageMol 是一种基于主动自我监督图像处理的策略,为各种人类疾病的计算药物发现提供了强大的工具箱。

科学分类资讯推荐

首张嗅觉图谱问世 或重塑嗅觉形成认知 - 天天要闻

首张嗅觉图谱问世 或重塑嗅觉形成认知

研究人员以前所未有的细节绘制了小鼠鼻腔中的嗅觉受体分布图谱。这一成果颠覆了人们对鼻子如何产生嗅觉的认知。△小鼠鼻腔的显微镜横截面图像,显示了鼻腔上皮的解剖结构。图片来源:Datta Lab4月28日发表于《细胞》的一项研究,揭示了感觉神经元上表达的约1100个嗅觉受体是如何在鼻腔内壁上皮组织中受到严格调控的空间位置...
心脏为什么不会得癌症? - 天天要闻

心脏为什么不会得癌症?

心脏为什么不会得癌症?心肌细胞会进行有节律的搏动,并在个体出生后停止增殖,因此,心脏没有再生能力。近日,意大利的里雅斯特大学医学院Serena Zacchigna团队完成的体内癌症模型和离体工程心脏组织实验表明,心肌细胞搏动所产生的机械力负
暴雨、冰雹要来,广东天气明起大反转!珠海接下来…… - 天天要闻

暴雨、冰雹要来,广东天气明起大反转!珠海接下来……

【来源:珠海发布】“五一”假期前两天, 珠海天气晴好,大家都去哪里玩了?不过天气马上要反转再反转了! 广东明天好天气要暂时“下线”,局部有大暴雨、小冰雹;珠海明天午后也将有雷雨+10级大风…… 这场雨会持续多久?假期接下来的天气会怎样?赶紧
河北衡水:假日邂逅飞行 低空魅力引游人 - 天天要闻

河北衡水:假日邂逅飞行 低空魅力引游人

5月2日,位于河北省衡水市的中国航协衡水航空飞行营地,各类飞行表演和低空飞行器展示吸引市民游客观赏。中国桃城第四届“翱翔中国”全国低空无人飞行器大赛暨第二届京津冀低空飞行器集采会于5月1日至2日在此举行。图为游客近距离参观飞行器。
可拍原子运动过程 揭秘地下30米的“国之重器” - 天天要闻

可拍原子运动过程 揭秘地下30米的“国之重器”

来源:央视新闻客户端坐落在上海张江的硬X射线自由电子激光装置是“十三五”国家重大科技基础设施建设规划优先启动项目,也是上海(长三角)国际科技创新中心核心空间载体——张江科学城重大科技基础设施集群的旗舰装置,是我国实现2035年建成科技强国战