Hello 大家好,今天的文字来自 B 站主页“微基因の人类观察社”社员杰夫!
相信不少人都听过“人类基因组计划”——毕竟这可是与曼哈顿原子弹计划、阿波罗登月计划,并称为人类科学史上的三大工程之一,我们中国也曾参与其中 1% 的基因组测序工作。
当年的人类基因组测序,举全球 6 个国家、20 个研究所之力,耗资超 30 亿美元,足足花了13 年才完成;而现在你只用花个千来块、不出半月,就能得到自己的全基因组测序报告。
那么你或许会好奇:在这一切的背后,有什么秘密?
等不及的朋友,点击下面小程序卡片,可直接跳转观看视频👇
下面是本期视频的图文稿,不方便/不想看视频的朋友,欢迎继续往下解密~
1953 年,DNA 双螺旋结构的发现,将基因组学的研究深入到了分子层面。
虽然在你每个直径为几微米的细胞核中,只有 46 条染色体;但组成染色体的、这些间距仅 0.34 纳米的碱基对,却足足有超 30 亿个。
如此庞大的数量和微小的尺寸,使得想一睹基因组全貌的科学家们,在很长一段时间里都无从下手。
直到二十年后,生化学家弗雷德里克·桑格,开创性地发明出了第一代基因组测序技术,即“双脱氧链终止法核酸测序技术”,又称“Sanger 测序”。
弗雷德里克·桑格
这是一种构思堪称绝妙的测序方法。
众所周知,在 DNA 自我复制的过程中,DNA 解旋酶会解开 DNA 双螺旋结构,使之成为单链 DNA。
以单链 DNA 为模版,DNA 聚合酶会将 4 种类型的游离脱氧核苷酸(dNTP):A、T、C、G,按照碱基互补配对原则进行拼接,形成一条全新的单链 DNA。
而桑格巧妙地利用了这一过程,将与脱氧核苷酸(dNTP)仅有一个羟基区别的双脱氧核苷酸(ddNTP),加入到了 DNA 合成的反应中。
一旦这些有“缺陷”的 ddNTP 被结合到 DNA 新链中,后续的碱基拼接就会被终止。
而这些 ddNTP 被结合到 DNA 新链的位置是随机的, 也就是说,如果我们加入的 ddNTP 都只携带同一种碱基(如 A),那么就会得到许多长短不一,但起始位置相同,且最后一个碱基(A)已知的 DNA 片段。
而通过类似的含不同碱基的 ddNTP 的实验,我们还能得到其它分别以不同碱基结尾的 DNA 片段,利用凝胶电泳和放射自显影技术,就能将这些片段按大小分离出来,并逆向组装出完整的目标 DNA 序列。
这一巧妙的构思,不仅大幅降低了基因组测序的难度,且组装出来 DNA 序列准确性还极高。
所以,第一代测序技术不仅没有随着技术进步被淘汰,反而至今仍是基因变异验证的金标准。
美国能源部(DOE)意识到了第一代测序技术的潜力,在 1984 年提出了人类基因组计划。
但以当时的科研和技术,测定 30 亿个碱基对所需要的资源和人才,显然不是一个小小的能源部能负担得起的;甚至单个国家都很难给出这么多资源在这一件事上,所以很长一段时间都没什么实质性进展。
时间来到 1987 年,世界上第一台商用荧光自动测序仪 ABI 370A 问世。
它在 Sanger 测序法和荧光标记法的基础上,用不同颜色的荧光,标记含 4 种不同碱基的 ddNTP,来配合毛细管电泳,提高了测序速度。
这台机器的出现,迅速成为了行业的标杆,并推动了测序效率更高的高通量测序仪的开发。
次年,大名鼎鼎的沃森被美国国家卫生研究院(NIH)委任为人类基因组计划的副主任。
有了市场的刺激,和“DNA 之父”的背书,NIH 和 DOE 终于成功争取到了 30 亿美元的资金支持。
1990 年,人类基因组计划正式启动,英、法、德、日、中各国随后也加入了这项庞大的计划。
我们微基因的股东华大基因,当时就曾代表国家出席了这场盛会。
可谁也没想到,这场集结了 6 国顶级科学家、耗资巨大的的人类基因组计划,却差点被一个只有他们十分之一预算的科学鬼才狠狠打脸。
就在人类基因组计划正式开始没多久的 1992 年,原本被用来当招牌的沃森却被 NIH 踢出了局。
原因是 NIH 想要将他们测定出来的一段 cDNA 申请专利,却遭到了沃森的强烈反对,他认为所有跟人类基因有关的知识,都应该跟全人类共享。
尽管最后 NIH 申请专利失败,但这却给了当时负责专利申请案的克雷格·文特尔很大启发。
如果他能成功将人类基因组成果变为专利,那么以后所有跟人类基因组有关的研究、应用都要给他交一笔专利费,“钱途”简直一片光明。
于是,有了明确目标的文特尔,就把“批判”的目光投向了当时进展缓慢的测序工作。
当时,人类基因组计划是基于“克隆重叠群法”策略进行的。
简单来说,就是要先将人全基因组划分为大片段,并标记其在染色体上的位置、顺序。
各国科学家们拿到这些大片段后,需要先用细菌人工染色体(BAC)构筑出足够数量的克隆群,再分别对这些克隆群随机打碎、测序、组装回完整序列。
最后,还得等所有大片段都测序、组装完成后,才能按照一开始的分段顺序,将它们拼接成完整的基因组。
因此,这样一套流程下来,又是各种标记、又是细菌培养,还得分门别类的测序,花费的时间不长就怪了。
文特尔向 NIH 建议,改用他发明的“鸟枪法”测序,可以更快。
简单来说,他将整个基因组直接随机打碎成大量小片段,再进行测序。测得的序列叫做读段(reads),根据这些读段之间重叠的部分,将其正确地拼接起来,重建原始的 DNA 序列。
为了确保有足够的读段能正好能覆盖你的全基因组,就需要尽可能地增加你每个基因被检测到的次数。
而你每个基因平均被测序的次数,就叫做测序深度,一般用 x(乘数)来表示。
根据大家小学二年级都会(?)的 Lander-Waterman 公式,如果想要确保这些读段能覆盖目标 DNA 序列的 99.99%以上,测序深度起码要在 9.21x 以上。
但可惜,当时 NIH 的科学家们并没有接纳文特尔的建议,气的他直接炒了领导鱿鱼出来单干。
1998 年,文特尔创办了塞雷拉基因组公司(Celera Genomics),决定以一己之力挑战 6 国的人类基因组计划。
为了兑现给投资人的承诺,他甚至在企业创办的第二年,就想将已完成测序的 6500 个人类基因申请专利。
不过,这样肆意妄为的举动也引起了全球的舆论,“吓得”时任美国总统的克林顿赶紧出来声明:
“人类基因组数据不允许专利保护,且必须对所有研究者公开。”
因此,文特尔不仅没能成功申请到专利,还让当时刚成为资本宠儿的塞雷拉的股价应声暴跌。
然而,就算挣钱无望,文特尔还是成功为自己挣下了一口气。
因为他的测序速度实在是太快了。
6 国花了 8 年时间才完成了 5% 的测序任务,但在克林顿的撮合下,重新参与了人类基因组计划的文特尔,却在短短 3 年时间里,就将人类基因组计划完成了 90%。