2022年11月24日16:51:04 科学 1020

编辑 | 绿萝

药物的临床疗效和安全性取决于其在人体中的分子特性和靶点。然而，对人类甚至动物模型中的所有化合物进行蛋白质组范围的评估具有挑战性。

近日，来自湖南大学的研究人员开发了一个名为 ImageMol 的无监督预训练深度学习框架，具有化学意识，用于从大规模分子图像中学习分子结构。为计算药物发现提供了一个强大的预训练深度学习框架。

与最先进的方法相比，ImageMol有两个重要的改进：（1）它利用分子图像作为化合物的特征表示，具有高精度和低计算成本；（2）它利用无监督的预训练学习框架从人类蛋白质组中具有不同生物活性的 1000 万种药物样化合物中捕获分子图像的结构信息。

该研究以《Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework》为题，于 2022 年 11 月 21 日发布在《Nature Machine Intelligence》上。

论文链接：https://www.nature.com/articles/s42256-022-00557-6

尽管生物医学研究和技术取得了进展，但药物发现和开发仍然是一项具有挑战性的多维任务，需要优化候选化合物的重要特性，包括药代动力学、功效和安全性。传统的实验方法在蛋白质组范围内对人类甚至动物模型中所有候选化合物的分子靶标进行评估是不可行的。计算方法和技术被认为是一种有前途的解决方案，可以在整个药物发现和开发过程中大大减少成本和时间。

人工智能技术应用于药物设计和目标识别。基本挑战之一是如何从化学结构中学习分子表征。传统的分子表示方法依赖于大量的领域知识来提取分子特征。

随着自然语言处理中无监督学习的兴起，最近的方法将无监督学习与一维序列字符串相结合，例如简化的分子输入行输入系统（SMILES）和国际化学标识符（InChI），或二维图。然而，它们在提取用于描述分子身份和分子生物学特征的信息向量方面的准确性是有限的。计算机视觉无监督学习的最新进展表明，可以将无监督的基于图像的预训练模型应用于计算药物发现。

在此，湖南大学研究团队提出了一个名为 ImageMol 的无监督预训练深度学习框架，对 1000 万个未标记的类药物生物活性分子进行了预训练，以预测候选化合物的分子靶点。ImageMol 框架旨在根据来自像素的分子的局部和全局结构特征，从未标记的分子图像中预训练化学表征。

图 1：ImageMol 框架。（来源：论文）

ImageMol 框架

研究人员开发了一个预训练深度学习框架 ImageMol，用于准确预测分子靶点。ImageMol 预训练了来自 PubChem 数据库的 9,999,918 张类药物生物活性分子图像。研究人员组装了五个借口任务来提取生物学相关的结构信息：（1）分子编码器旨在从约 1000 万个分子图像中提取潜在特征；(2) 五种预训练策略用于通过考虑分子图像中的化学知识和结构信息来优化分子编码器的潜在表示；(3) 预训练分子编码器针对下游任务进行微调，以进一步提高模型性能。

ImageMol 的基准评估

研究人员展示了 ImageMol 在评估 51 个基准数据集的分子特性（即药物的代谢、脑渗透和毒性）和分子靶点概况（即 β-分泌酶和激酶）方面的高性能。

首先使用八种类型的药物发现基准数据集评估了 ImageMol 的性能，然后，使用三种流行的split 策略（scaffold split、balanced scaffold split 和 random scaffold split ）来评估 ImageMol 在所有基准数据集上的性能。

图 2：使用基准数据集对 ImageMol 进行性能评估。（来源：论文）

在分类任务中，使用接受者操作特征 (ROC) 曲线 (AUC) 下的面积，ImageMol 实现了高 AUC 值（图 2a）。此外，ImageMol 在 BBBP 和 BACE 数据集上的概率分布相似度大于 95%，表明 ImageMol 在训练过程中具有较高的一致性和稳定性。

图 2c 显示，与三种最先进的基于分子图像的表示模型相比，ImageMol 在预测五种主要药物代谢酶的抑制剂与非抑制剂方面也实现了更高的 AUC 值（范围从 0.799 到 0.893）。

进一步将 ImageMol 的性能与三种最先进的分子表示模型进行了比较：(1) 基于指纹的模型，(2) 基于序列的模型和 (3) 基于图形的模型。如图 2d、e 所示，与使用 random scaffold split 的基于指纹、基于序列和基于图形的模型相比，ImageMol 具有更好的性能。

在化合物-蛋白质结合预测任务中，与现有方法相比，ImageMol 在十个 GPCR（回归任务）和十个激酶（分类任务）上取得了更好的性能。

进一步使用 McNemar 检验来评估最先进模型和 ImageMol 之间性能差异的统计显着性。与多个数据集上的现有方法相比，ImageMol 显示出统计上更高的性能。

总之，ImageMol 在各种药物发现任务中实现了改进的性能，优于最先进的方法。

ImageMol 在国家转化科学推进中心的 13 个高通量实验数据集中显示了识别抗 SARS-CoV-2 分子的高精度。通过 ImageMol，确定了用于潜在治疗 COVID-19 的候选临床 3C 样蛋白酶抑制剂。

ImageMol 的生物学解释

接下来，使用 t-SNE 可视化来自不同模型的分子表示，以测试 ImageMol 的生物学解释。研究人员使用由多粒度化学簇分类 (MG3C) 任务（方法）识别的簇来拆分分子结构。研究发现 ImageMol 可以很好地区分分子结构，优于 MACCS 指纹和非预训练模型。ImageMol 可以从分子图像表示中捕获化学信息的先验知识，包括 =O 键、-OH 键、-NH3 键和苯环。进一步使用 Davies–Bouldin (DB) 索引来定量评估聚类结果：较小的 DB 索引表示更好的性能。研究发现 ImageMol（DB 指数 1.92）优于 MACCS 指纹（DB 指数 2.93）；此外，预训练模型也可以大大提高分子表征（ImageMol 没有预训练的 DB 指数为 19.40）。

图 3：ImageMol 的生物学解释。（来源：论文）

梯度加权类激活映射 (Grad-CAM) 是一种常用的 CNN 可视化方法。说明 ImageMol 的 Grad-CAM 可视化的 12 个示例分子。ImageMol 同时准确地捕获对全局和局部结构信息的关注。ImageMol 是根据分子结构进行预测，而不是使用无意义的空白区域。

然后，进一步计算了粗粒度和细粒度的命中率。粗粒度命中率说明 ImageMol 可以利用所有图像的分子结构进行推理，比率为 100%，而 QSAR-CNN 模型为 90.7%。细粒度命中率表明 ImageMol 可以利用分子图像中几乎所有的结构信息进行推理，比例超过 99%，体现了其捕获分子全局信息的能力。

总之，ImageMol 捕获分子图像的生物学相关化学信息，优于现有的最先进的深度学习方法。

潜在方向的改进

几个潜在的方向可能会进一步改进 ImageMol：（1）更大规模的生物医学数据和更大容量的分子图像模型的集成必然是未来工作的重点；(2) 联合图像和其他表示（例如 SMILES 和图形）的多视图学习是一个重要的研究方向；（3）将更多的化学知识（如原子性质、化学性质和 3D 结构信息）融入到每个图像或像素区域中也是一个很有前途的未来方向。

总之，ImageMol 是一种基于主动自我监督图像处理的策略，为各种人类疾病的计算药物发现提供了强大的工具箱。