https://www.nature.com/articles/s41586-021-04043-8
绝大部分蛋白突变对人健康的影响未知,而现有预测算法很多时候不可靠(1)。
为此,哈佛大学医学院Debora Marks与牛津大学Yarin Gal等研究人员合作另辟蹊径,不依赖已有的蛋白突变对健康影响的标记信息,直接使用机器学习算法分析蛋白在演化过程中如何对其序列进行“约束”,从而保持其适应性,进而由这种“约束”推断各种蛋白突变对人健康的影响程度。
利用演化信息评估突变对健康的影响(1)
研究人员用此算法预测了3219种疾病相关基因3600万种蛋白编码突变的健康影响;初步评估显示该方法预测准确率超越现有算法,与功能性实验预测的准确率相当。
新算法(EVE(evolutionary model of variant effect))准确率远超现有算法(1)
新算法(EVE(evolutionary model of variant effect))准确率与实验数据相当(1)
研究人员表示该算法可以独立超大规模预测蛋白突变的健康影响,很好地与基于大规模外显子测序寻找稀有突变的策略互补;
此外,该算法依赖越来越多物种的测序,该工作涉及了约14万种物种的序列,其中很多处于濒危状态,这也体现了保护生物学的重要性。
该项工作2021年10月27日发表在nature(1)。
所有数据与代码可见:https://evemodel.org/ , 并实时更新(1)。
Comments:
这种策略对同一个蛋白的多个突变位点,特别是距离比较远的位点,的协同或者拮抗等效应的分析能力还比较有限,将来结合蛋白结构可能会好些。
此外,该算法很难分析点突变以外的蛋白突变,比如提前终止、移码以及融合等;它对非编码序列的分析也是非常大的挑战。
通讯作者简介:
https://sysbio.med.harvard.edu/debora-marks
https://www.cs.ox.ac.uk/people/yarin.gal/website/
参考文献:
1. J. Frazer et al., Disease variant prediction with deep generative models of evolutionary data. Nature,1–5 (2021).
原文链接:
https://www.nature.com/articles/s41586-021-04043-8