https://www.nature.com/articles/s41586-021-04043-8
絕大部分蛋白突變對人健康的影響未知,而現有預測算法很多時候不可靠(1)。
為此,哈佛大學醫學院Debora Marks與牛津大學Yarin Gal等研究人員合作另闢蹊徑,不依賴已有的蛋白突變對健康影響的標記信息,直接使用機器學習算法分析蛋白在演化過程中如何對其序列進行「約束」,從而保持其適應性,進而由這種「約束」推斷各種蛋白突變對人健康的影響程度。
利用演化信息評估突變對健康的影響(1)
研究人員用此算法預測了3219種疾病相關基因3600萬種蛋白編碼突變的健康影響;初步評估顯示該方法預測準確率超越現有算法,與功能性實驗預測的準確率相當。
新算法(EVE(evolutionary model of variant effect))準確率遠超現有算法(1)
新算法(EVE(evolutionary model of variant effect))準確率與實驗數據相當(1)
研究人員表示該算法可以獨立超大規模預測蛋白突變的健康影響,很好地與基於大規模外顯子測序尋找稀有突變的策略互補;
此外,該算法依賴越來越多物種的測序,該工作涉及了約14萬種物種的序列,其中很多處於瀕危狀態,這也體現了保護生物學的重要性。
該項工作2021年10月27日發表在nature(1)。
所有數據與代碼可見:https://evemodel.org/ , 並實時更新(1)。
Comments:
這種策略對同一個蛋白的多個突變位點,特別是距離比較遠的位點,的協同或者拮抗等效應的分析能力還比較有限,將來結合蛋白結構可能會好些。
此外,該算法很難分析點突變以外的蛋白突變,比如提前終止、移碼以及融合等;它對非編碼序列的分析也是非常大的挑戰。
通訊作者簡介:
https://sysbio.med.harvard.edu/debora-marks
https://www.cs.ox.ac.uk/people/yarin.gal/website/
參考文獻:
1. J. Frazer et al., Disease variant prediction with deep generative models of evolutionary data. Nature,1–5 (2021).
原文鏈接:
https://www.nature.com/articles/s41586-021-04043-8