AlphaFold如此成功,我们也有必要在历史背景下看一看为什么蛋白质折叠的巨大挑战如此重要。
估计大家都记得中学时接触过的“中心法则”。
所谓的“分子生物学中心法则”最初是在 1957 年由英国物理学家出身的生物学家弗朗西斯·克里克(Francis Crick)在一次会议演讲中提出的。在那次演讲中,克里克进行了令人难忘的描述“DNA→RNA→蛋白质”,其中箭头表示“信息流”。
克里克后来与吉姆·沃森(以及莫里斯·威尔金斯和当时不幸去世的罗莎琳德·富兰克林做出了重大贡献)一起获得了诺贝尔奖,因为他们在 1953 年发表文章,解决了 DNA 的双螺旋结构——并揭示了关于如何精确复制由双螺旋中的碱基对序列编码的遗传信息的解释。
同样重要的是,克里克对生命的基本分子信息流的非凡洞察,从广义上正确地提出了:如何将 DNA 中碱基的一维线性序列(构成遗传密码),通过相应的一维信使 RNA 序列,翻译成一维构成蛋白质多肽链的氨基酸结构单元的序列。
然而尽管很精彩,中心法则根本没有解释线性氨基酸链如何折叠成构成生命 3D 分子机器的蛋白质的正确结构。
十二年后,在 1969 年发表的另一场重要会议演讲中,美国分子生物学家赛勒斯·莱文塔尔 (Cyrus Levinthal) 估计,一条具有代表性的多肽链在理论上可能采用的构型数量可能高达令人震惊的 10300 种——这意味着蛋白质正确折叠需要比当时已知宇宙的年龄更长的时间。这与观察到的蛋白质在短短几秒钟内实现其正确 3D 形状的能力形成鲜明对比。这个难题被称为蛋白质折叠的“莱文塔尔悖论”。
又过了三年,即 1972 年,美国生物化学家克里斯蒂安·阿芬森 (Christian Afinson) 因“热力学假说”获得诺贝尔奖——基于他对称为核糖核酸酶的蛋白质的研究,以及“特别是氨基酸序列与生物活性物质之间的关系构象”。阿芬森在他的诺贝尔奖演讲论文的结尾展望了未来,他认为届时人们可以预测蛋白质结构的 3D 形状如何与其相应的遗传密码和氨基酸序列相关。
尽管取得了初步进展,但在 1994 年,由于从组成氨基酸序列正确预测蛋白质 3D 构象的能力有限,这促使一群结构生物学家发起了“蛋白质结构预测(CASP)竞赛”。尤其有意思的是,组织者并不喜欢“比赛”一词,更喜欢“实验”,但在外人看来,这确实是一场比赛!
这项两年一度的活动旨在加快该领域的研究进展。之后每隔两年,有大约 100 个研究团队努力探索他们的计算方法可以多么准确地预测蛋白质的 3D 结构,并通过艰苦的经验结构确定(通常通过 X 射线晶体学或冷冻电子显微镜进行)。
因为蛋白质结构预测竞赛(CASP)的参赛者被要求“盲”预测一百种蛋白质的结构,可以说CASP 挑战了每个团队做出准确估计的能力。