Science | 告别序列依赖,为你的染色体“扫码”:每条染色体竟自带独一无二的“条形码”

2025年07月06日16:00:15 科学 5705

引言

在人类基因组中,有一片广袤而神秘的“禁区”,它占据了每条染色体的核心位置,却长期以来让我们束手无策。这片区域就是着丝粒 (centromere)。它就像基因组中的“百慕大三角”,充满了高度重复的dna序列,结构复杂多变,让传统的基因测序和分析技术在此屡屡碰壁。然而,这片“禁区”却掌握着细胞分裂时染色体能否被精确分离的关键,其失常与癌症、发育异常等多种疾病息息相关。我们如何才能读懂这片充满变数又至关重要的区域呢?

7月3日,一篇发表在science上的研究“chromosome-specific centromeric patterns define the centeny map of the human genome”,为我们提供了一把前所未有的“钥匙”。研究人员绕开了直接解读那些“乱码”般序列的传统思路,另辟蹊径,发现了一种隐藏在混乱背后的秩序——一种由特定dna基序 (motif) 的间距构成的、每条染色体独有的“条形码”。这一发现不仅为我们揭示了着丝粒的古老建筑蓝图,更绘制出了一幅全新的、高分辨率的人类基因组“导航图”,为我们提供了一个全新的视角来审视染色体。
Science | 告别序列依赖,为你的染色体“扫码”:每条染色体竟自带独一无二的“条形码” - 天天要闻

基因组的‘百慕大三角’:为什么着丝粒如此神秘?

如果你正在拼一幅巨大的拼图,大部分区域,比如风景、建筑,都有着清晰的特征,让你能按图索骥。但突然,你遇到了一大片纯蓝色的天空,成千上万的拼图块看起来一模一样。这就是研究人员在面对着丝粒时的窘境。

人类的着丝粒主要由一种叫做α-卫星dna (alpha-satellite dna, asat) 的序列大量串联重复而成。这些重复单元(称为单体 (monomer))的长度大约为171个碱基对,它们成千上万地排列在一起,构成了长达数百万个碱基对的巨大阵列。更复杂的是,这些重复序列并非一成不变。在不同的人之间,甚至在同一个人的两条同源染色体之间,着丝粒的dna序列、长度和结构都存在巨大差异。这种“快速进化”的特性,使得通过传统的序列比对方法来研究着丝粒,就像在流沙上建造城堡一样困难。

然而,功能上的保守性提示我们,背后必有蹊跷。无论dna序列如何变化,着丝粒都必须精确地执行其在细胞分裂中的“牵引绳”功能。这暗示着,决定着丝粒功能的,可能并非dna序列本身,而是基于这些序列形成的、一种更高级的结构或“表观遗传”标记。

在这片混乱的α-卫星dna海洋中,有一个相对稳定的“灯塔”——着丝粒蛋白b (cenp-b)。它是目前已知的唯一能直接结合特定dna序列的着丝粒蛋白。它识别并结合的是一个长约17个核苷酸的特定序列,被称为cenp-b盒 (cenp-b box)

研究人员提出了一个大胆而巧妙的假设:既然直接比较那些杂乱无章的α-卫星dna序列行不通,那么,我们能否忽略序列本身,转而关注这些cenp-b盒“灯塔”的空间分布规律呢?或许,在不同的染色体上,这些cenp-b盒之间的距离 (distance) 遵循着某种特定的、被保守下来的“节拍”或“韵律”。如果这个假设成立,我们就能将复杂难解的dna序列“解码”成一组简单的数字——也就是这些灯塔之间的距离值,从而找到一种全新的、可量化的方式来描述和比较着丝粒。

为了验证这一想法,他们开发了一套名为“基因组着丝粒分析” (genomic centromere profiling, gcp) 的计算流程。这个工具的核心功能,就是自动化地在整个基因组中定位每一个cenp-b盒,并精确计算出相邻两个cenp-b盒之间的碱基对距离。这就像是给基因组配备了一把高精度的“数字尺子”,专门用来测量这些关键地标之间的间距。

从混乱中发现秩序:每条染色体都有自己的‘节拍’

当研究人员将gcp流程应用于目前最完整的人类参考基因组——t2t-chm13——时,惊人的发现出现了。分析结果显示,cenp-b盒之间的距离并非随机分布,而是集中在几个特定的数值范围内。这些距离值背后,隐藏着着丝粒的基本结构单元——α-卫星单体的组织方式。例如,一个约150个碱基对 (bp)的距离,意味着几乎每一个 (every-monomer) α-卫星单体上都有一个cenp-b盒。一个约323 bp的距离,则对应着“隔一模式” (every-other-monomer),即一个单体有cenp-b盒,下一个则没有,如此交替出现,这也是在大多数染色体中最常见的组织形式。此外,还存在着约492 bp(隔二模式)、663 bp(隔三模式)、833 bp(隔四模式)等更长的距离。

这仅仅是开始。真正让研究人员兴奋的是,当他们将这些距离数据按染色体进行分类后,一幅壮观的图景展现在眼前。他们绘制了一张热图,图中每一行代表一个特定的距离值,每一列代表一条染色体,颜色的深浅则表示该距离在对应染色体上出现的频率。

这张热图清晰地揭示了:每条人类染色体都拥有一套独一无二的、由cenp-b盒间距构成的“条形码”!

例如,17号染色体的“条形码”以高频率的“每一模式”(约148-150 bp)为主,显示出非常密集的cenp-b盒排布。而x染色体则是一个“异类”,它的条形码中几乎完全没有最常见的“隔一模式”(323 bp左右的距离),其最主要的节拍是“隔二模式”(约494 bp)和“隔四模式”(约833 bp),这表明x染色体的着丝粒经历了一条与众不同的演化路径。其他染色体,如1、5、19号染色体等,则共享着一种以“隔一模式”(约320、322、324 bp)为主的相似条形码,但彼此之间仍有细微差别。

这个发现的意义是革命性的。它意味着,我们终于有了一种不依赖于dna序列比对,却能精确区分不同染色体着丝粒的方法。这个“条形码”就像是每条染色体的“身份证”。为了验证其普适性,研究人员将分析扩展到了更多的人类基因组样本中,包括来自不同个体的rpe-1hg002细胞系的二倍体基因组。结果令人振奋:无论是在不同个体间,还是在同一个体的两条同源染色体之间,这种染色体特异性的“条形码”都表现出了高度的保守性。这有力地证明,这套“节拍系统”并非偶然,而是被写进人类遗传物质深处的一套稳定而古老的建筑规则。

不止于中心:绘制全新的全基因组‘cenp-b导航图’

随着研究的深入,一个更大的惊喜浮出水面。研究人员发现,cenp-b盒并非只存在于着丝粒这个“核心区”。它们实际上像星辰一样,散布在每条染色体的整个臂区 (chromosome arms)!这些位于着丝粒之外的cenp-b盒,被研究人员命名为“外着丝粒序列” (ectocentromeric sequences, ecss)

更令人惊讶的是,就连过去被认为完全没有cenp-b盒的y染色体,也被发现其臂区上存在着这些序列。这些臂区上的cenp-b盒同样不是随机散落的,它们的排布位置、方向(正向或反向)以及组织方式,也构成了每条染色体独有的模式。

基于这一发现,研究人员构建了一幅前所未有的全基因组地图。他们将这种利用着丝粒元件(cenp-b盒)的分布模式来定义基因组特征的方法,巧妙地命名为“cen-teny”——一个融合了“centromere”(着丝粒)和“synteny”(同线性)的自创新词。这幅“centeny图谱”,用不同颜色的标记(例如,蓝色代表正向,红色代表反向)在每条染色体上标注出所有cenp-b盒的位置和方向。

这幅图谱就像一个高精度的全基因组gps导航系统,其威力很快就得到了证实。研究人员分析了一个已知的特殊细胞系——rpe-1,该细胞系的x染色体发生了一次易位 (translocation),其长臂的末端与10号染色体长臂的一部分发生了交换。在“centeny图谱”上,这一切变得一目了然。研究人员发现,在这条衍生x染色体上,其“centeny图谱”前半部分完美匹配正常的x染色体“条形码”,但在易位断点之后,图谱模式突然切换,变成了10号染色体长臂所特有的“条形码”!这种清晰的模式拼接,如同一份不容置疑的“法证报告”,精准地指出了结构变异的发生位置和拼接来源。

解码着丝粒的‘三板斧’:分类,寻踪,和纠错

有了这套强大的gcp流程和“centeny”概念,研究人员进一步开发了三个环环相扣的分析模型,如同三板斧,精准地劈开了着丝粒研究中的重重迷雾。

第一板斧:基于“条形码”的染色体家族重分类 (model 1)。过去,研究人员根据α-卫星单体的序列相似性,将人类染色体划分为几个“超家族”。现在,研究人员利用cenp-b盒间距的“条形码”作为特征,对人类染色体进行了重新聚类。结果显示,染色体被分成了四个主要的新“超家族”,例如4、18、9、11号染色体聚为一类,而x和17号染色体则因其独特的“条形码”自成一派。

第二板斧:追踪着丝粒的“分层演化”历史 (model 2)。着丝粒如何演化?一个流行的理论是“分层扩张”。研究人员的第二个模型,巧妙地将这一过程可视化了。他们用不同的颜色表示cenp-b盒在连续单体中的出现模式,形成了一幅“彩虹图”。在x染色体的“彩虹图”上,他们观察到主区域呈现稳定的“隔二模式”,但在其一侧,出现了一个明显的“扩张区”,模式突然变成了密度急剧下降的“隔八模式”。这幅图生动地描绘了x染色体着丝粒的演化史。

第三板斧:利用“节拍模块”进行精准注释和纠错 (model 3)。研究人员提出了“k-pattern”——即由k个连续的cenp-b盒间距值组成的“节拍模块”。每个染色体都有一套独特的“k-pattern”曲库。这个模型被用作一个高精度的“探针”来注释精细结构。例如,在1号染色体一个长达1.7兆碱基对的倒位 (inversion) 区域,尽管发生了剧烈的结构重排,倒位内部的“k-pattern”节拍模块却几乎完美保留,表明维持正确的“节拍”对于功能至关重要。这个模型甚至能直接从原始测序数据中“打捞”出特定染色体的着丝粒片段。

跨越个体与物种的‘通用语言’:从人类泛基因组到灵长类近亲

这项研究的视野并未止步于单个参考基因组。为了验证这套“条形码”系统的普适性,研究人员将其应用到了人类泛基因组参考联盟 (hprc) 的海量数据中,分析了来自全球不同人群的225个单倍型。结果再次印证了他们的发现:cenp-b盒的染色体特异性模式在整个人类群体中都惊人地保守。同时,这个工具也展现了其作为基因组“质检员”的威力,轻易地就识别出了一些在组装过程中被错误分配的dna片段。

最后,研究人员将目光投向了更广阔的演化时空,他们分析了我们最亲近的灵长类亲戚——黑猩猩 (chimpanzee)、倭黑猩猩 (bonobo) 和 大猩猩 (gorilla) 的基因组。分析结果为这个故事写下了最辉煌的注脚:构成人类染色体“条形码”的核心距离值,在这些灵长类物种中同样存在!尽管物种之间存在数百万年的演化差距,这套基本“语法规则”却被保留了下来。

这一发现强烈地暗示,我们今天在人类染色体上看到的这套“条形码”系统,并非新生事物,而是一个在数千万年前的灵长类共同祖先中就已经存在的、深刻烙印在基因组中的古老建筑蓝图

一把解开‘生命暗物质’的钥匙

这项杰出的研究,为我们打开了一扇全新的窗户,让我们得以窥见基因组“禁区”——着丝粒——内部的深刻秩序。它告诉我们,生命的编码方式远比我们想象的要丰富。有时,信息并不在于“字母”(dna序列),而在于“节奏”(功能基序的间距)。

研究人员发现的染色体特异性“条形码”和绘制的“centeny图谱”,以及他们开发的gcp分析工具箱,共同构成了一套革命性的研究框架。它不仅能帮助我们以前所未有的分辨率和可扩展性来注释、比较和理解着丝粒,还能快速识别染色体结构变异,评估基因组组装质量,并追溯染色体的演化历史。

更重要的是,这项工作开启了无数新的可能性。散布在染色体臂区的那些“外着丝粒序列”(ecss) 究竟扮演着什么角色?它们是否参与了染色质的高级折叠,或者调控着基因的表达?这些“条形码”在癌症等疾病中是否会发生改变?我们能否利用这套系统去探索更多物种的基因组奥秘?

这把钥匙已经交到我们手中,通往生命“暗物质”世界的大门已经敞开。一个关于着丝粒生物学的全新探索时代,正等待着我们去开启。




参考文献


corda l, giunta s. chromosome-specific centromeric patterns define the centeny map of the human genome. science. 2025 jul 3;389(6755):eads3484. doi: 10.1126/science.ads3484. epub 2025 jul 3. pmid: 40608920.


声明:本文仅用于分享,不代表平台立场,如涉及版权等问题,请尽快联系我们,我们第一时间更正,谢谢!

科学分类资讯推荐

罕见!今年三伏天近10年来最短 - 天天要闻

罕见!今年三伏天近10年来最短

7月7日,小暑,迎风穿夏,寻觅清凉。“小暑大暑,上蒸下煮”,夏天开始变得潮湿闷热,一年中最热的“三伏天”也快到来。在过去10年,从2015年至2024年,连续10年的“三伏”都是40天。而今年的“三伏天”7月20日入伏,8月18日出伏,仅30天,是近10年来最短的一次。酷热还没真正开始,暑意已经蔓延。此时,寻一处清凉,成了夏...
国科大毕业生探访怀柔“一城两都” - 天天要闻

国科大毕业生探访怀柔“一城两都”

7月5日一早,雨过天晴。怀柔科学城新质生产力创造中心门前,中国科学院大学的毕业生们正带着家人走下大巴车,准备进展厅“探秘”——这是中国科学院大学2025年毕业典礼走进“一城两都”活动的首站。
记者手记:从“离科学最近的地方”扬帆报国之路 - 天天要闻

记者手记:从“离科学最近的地方”扬帆报国之路

新华社北京7月6日电 记者手记:从“离科学最近的地方”扬帆报国之路新华社记者刘祯7月的北京,骄阳似火。中国科学院大学雁栖湖校区的运动场座无虚席,热烈的氛围比骄阳更胜。6日上午,中国科学院大学2025年度毕业典礼暨学位授予仪式在这里举行。万余名毕业生即将从这个被称作“离科学最近的地方”启程,奔赴各自的科学之路...
第42届全国医药工业信息年会和2025北京·昌平生命科学论坛开幕 - 天天要闻

第42届全国医药工业信息年会和2025北京·昌平生命科学论坛开幕

7月6日,第42届全国医药工业信息年会和2025北京·昌平生命科学论坛开幕,聚焦前沿科学、产业趋势与政策创新,邀请全球生命科学领域各界代表齐聚一堂,共同推动我国医药产业高质量发展,塑造具有全球影响力的产业地标。北京市委副书记、市长殷勇致辞并宣布活动开幕。工业和信息化部党组成员谢远生,国家药品监督管理局党组成...
人体“捉妖记”:免疫系统如何分辨“自我”与“非我” - 天天要闻

人体“捉妖记”:免疫系统如何分辨“自我”与“非我”

在神秘又奇妙的人体世界里,免疫系统就像是守护健康的“齐天大圣”,时刻警惕着各路“妖魔鬼怪”的入侵。而要想精准打击敌人,首先得搞清楚谁是自己人,谁是外来的“妖精”,这就涉及到一个关键问题:“自我”与“非我”的识别。大家都知道,在《西游记》里,妖怪们变化多端,常常混入人群,企图蒙混过关。人体里也一样,各...