Science | 告別序列依賴,為你的染色體「掃碼」:每條染色體竟自帶獨一無二的「條形碼」

2025年07月06日16:00:15 科學 5705

引言

在人類基因組中,有一片廣袤而神秘的「禁區」,它佔據了每條染色體的核心位置,卻長期以來讓我們束手無策。這片區域就是着絲粒 (centromere)。它就像基因組中的「百慕大三角」,充滿了高度重複的dna序列,結構複雜多變,讓傳統的基因測序和分析技術在此屢屢碰壁。然而,這片「禁區」卻掌握着細胞分裂時染色體能否被精確分離的關鍵,其失常與癌症、發育異常等多種疾病息息相關。我們如何才能讀懂這片充滿變數又至關重要的區域呢?

7月3日,一篇發表在science上的研究「chromosome-specific centromeric patterns define the centeny map of the human genome」,為我們提供了一把前所未有的「鑰匙」。研究人員繞開了直接解讀那些「亂碼」般序列的傳統思路,另闢蹊徑,發現了一種隱藏在混亂背後的秩序——一種由特定dna基序 (motif) 的間距構成的、每條染色體獨有的「條形碼」。這一發現不僅為我們揭示了着絲粒的古老建築藍圖,更繪製出了一幅全新的、高分辨率的人類基因組「導航圖」,為我們提供了一個全新的視角來審視染色體。
Science | 告別序列依賴,為你的染色體「掃碼」:每條染色體竟自帶獨一無二的「條形碼」 - 天天要聞

基因組的『百慕大三角』:為什麼着絲粒如此神秘?

如果你正在拼一幅巨大的拼圖,大部分區域,比如風景、建築,都有着清晰的特徵,讓你能按圖索驥。但突然,你遇到了一大片純藍色的天空,成千上萬的拼圖塊看起來一模一樣。這就是研究人員在面對着絲粒時的窘境。

人類的着絲粒主要由一種叫做α-衛星dna (alpha-satellite dna, asat) 的序列大量串聯重複而成。這些重複單元(稱為單體 (monomer))的長度大約為171個鹼基對,它們成千上萬地排列在一起,構成了長達數百萬個鹼基對的巨大陣列。更複雜的是,這些重複序列並非一成不變。在不同的人之間,甚至在同一個人的兩條同源染色體之間,着絲粒的dna序列、長度和結構都存在巨大差異。這種「快速進化」的特性,使得通過傳統的序列比對方法來研究着絲粒,就像在流沙上建造城堡一樣困難。

然而,功能上的保守性提示我們,背後必有蹊蹺。無論dna序列如何變化,着絲粒都必須精確地執行其在細胞分裂中的「牽引繩」功能。這暗示着,決定着絲粒功能的,可能並非dna序列本身,而是基於這些序列形成的、一種更高級的結構或「表觀遺傳」標記。

在這片混亂的α-衛星dna海洋中,有一個相對穩定的「燈塔」——着絲粒蛋白b (cenp-b)。它是目前已知的唯一能直接結合特定dna序列的着絲粒蛋白。它識別並結合的是一個長約17個核苷酸的特定序列,被稱為cenp-b盒 (cenp-b box)

研究人員提出了一個大膽而巧妙的假設:既然直接比較那些雜亂無章的α-衛星dna序列行不通,那麼,我們能否忽略序列本身,轉而關注這些cenp-b盒「燈塔」的空間分佈規律呢?或許,在不同的染色體上,這些cenp-b盒之間的距離 (distance) 遵循着某種特定的、被保守下來的「節拍」或「韻律」。如果這個假設成立,我們就能將複雜難解的dna序列「解碼」成一組簡單的數字——也就是這些燈塔之間的距離值,從而找到一種全新的、可量化的方式來描述和比較着絲粒。

為了驗證這一想法,他們開發了一套名為「基因組着絲粒分析」 (genomic centromere profiling, gcp) 的計算流程。這個工具的核心功能,就是自動化地在整個基因組中定位每一個cenp-b盒,並精確計算出相鄰兩個cenp-b盒之間的鹼基對距離。這就像是給基因組配備了一把高精度的「數字尺子」,專門用來測量這些關鍵地標之間的間距。

從混亂中發現秩序:每條染色體都有自己的『節拍』

當研究人員將gcp流程應用於目前最完整的人類參考基因組——t2t-chm13——時,驚人的發現出現了。分析結果顯示,cenp-b盒之間的距離並非隨機分佈,而是集中在幾個特定的數值範圍內。這些距離值背後,隱藏着着絲粒的基本結構單元——α-衛星單體的組織方式。例如,一個約150個鹼基對 (bp)的距離,意味着幾乎每一個 (every-monomer) α-衛星單體上都有一個cenp-b盒。一個約323 bp的距離,則對應着「隔一模式」 (every-other-monomer),即一個單體有cenp-b盒,下一個則沒有,如此交替出現,這也是在大多數染色體中最常見的組織形式。此外,還存在着約492 bp(隔二模式)、663 bp(隔三模式)、833 bp(隔四模式)等更長的距離。

這僅僅是開始。真正讓研究人員興奮的是,當他們將這些距離數據按染色體進行分類後,一幅壯觀的圖景展現在眼前。他們繪製了一張熱圖,圖中每一行代表一個特定的距離值,每一列代表一條染色體,顏色的深淺則表示該距離在對應染色體上出現的頻率。

這張熱圖清晰地揭示了:每條人類染色體都擁有一套獨一無二的、由cenp-b盒間距構成的「條形碼」!

例如,17號染色體的「條形碼」以高頻率的「每一模式」(約148-150 bp)為主,顯示出非常密集的cenp-b盒排布。而x染色體則是一個「異類」,它的條形碼中幾乎完全沒有最常見的「隔一模式」(323 bp左右的距離),其最主要的節拍是「隔二模式」(約494 bp)和「隔四模式」(約833 bp),這表明x染色體的着絲粒經歷了一條與眾不同的演化路徑。其他染色體,如1、5、19號染色體等,則共享着一種以「隔一模式」(約320、322、324 bp)為主的相似條形碼,但彼此之間仍有細微差別。

這個發現的意義是革命性的。它意味着,我們終於有了一種不依賴於dna序列比對,卻能精確區分不同染色體着絲粒的方法。這個「條形碼」就像是每條染色體的「身份證」。為了驗證其普適性,研究人員將分析擴展到了更多的人類基因組樣本中,包括來自不同個體的rpe-1hg002細胞系的二倍體基因組。結果令人振奮:無論是在不同個體間,還是在同一個體的兩條同源染色體之間,這種染色體特異性的「條形碼」都表現出了高度的保守性。這有力地證明,這套「節拍系統」並非偶然,而是被寫進人類遺傳物質深處的一套穩定而古老的建築規則。

不止於中心:繪製全新的全基因組『cenp-b導航圖』

隨着研究的深入,一個更大的驚喜浮出水面。研究人員發現,cenp-b盒並非只存在於着絲粒這個「核心區」。它們實際上像星辰一樣,散布在每條染色體的整個臂區 (chromosome arms)!這些位於着絲粒之外的cenp-b盒,被研究人員命名為「外着絲粒序列」 (ectocentromeric sequences, ecss)

更令人驚訝的是,就連過去被認為完全沒有cenp-b盒的y染色體,也被發現其臂區上存在着這些序列。這些臂區上的cenp-b盒同樣不是隨機散落的,它們的排布位置、方向(正向或反向)以及組織方式,也構成了每條染色體獨有的模式。

基於這一發現,研究人員構建了一幅前所未有的全基因組地圖。他們將這種利用着絲粒元件(cenp-b盒)的分佈模式來定義基因組特徵的方法,巧妙地命名為「cen-teny」——一個融合了「centromere」(着絲粒)和「synteny」(同線性)的自創新詞。這幅「centeny圖譜」,用不同顏色的標記(例如,藍色代表正向,紅色代表反向)在每條染色體上標註出所有cenp-b盒的位置和方向。

這幅圖譜就像一個高精度的全基因組gps導航系統,其威力很快就得到了證實。研究人員分析了一個已知的特殊細胞系——rpe-1,該細胞系的x染色體發生了一次易位 (translocation),其長臂的末端與10號染色體長臂的一部分發生了交換。在「centeny圖譜」上,這一切變得一目了然。研究人員發現,在這條衍生x染色體上,其「centeny圖譜」前半部分完美匹配正常的x染色體「條形碼」,但在易位斷點之後,圖譜模式突然切換,變成了10號染色體長臂所特有的「條形碼」!這種清晰的模式拼接,如同一份不容置疑的「法證報告」,精準地指出了結構變異的發生位置和拼接來源。

解碼着絲粒的『三板斧』:分類,尋蹤,和糾錯

有了這套強大的gcp流程和「centeny」概念,研究人員進一步開發了三個環環相扣的分析模型,如同三板斧,精準地劈開了着絲粒研究中的重重迷霧。

第一板斧:基於「條形碼」的染色體家族重分類 (model 1)。過去,研究人員根據α-衛星單體的序列相似性,將人類染色體劃分為幾個「超家族」。現在,研究人員利用cenp-b盒間距的「條形碼」作為特徵,對人類染色體進行了重新聚類。結果顯示,染色體被分成了四個主要的新「超家族」,例如4、18、9、11號染色體聚為一類,而x和17號染色體則因其獨特的「條形碼」自成一派。

第二板斧:追蹤着絲粒的「分層演化」歷史 (model 2)。着絲粒如何演化?一個流行的理論是「分層擴張」。研究人員的第二個模型,巧妙地將這一過程可視化了。他們用不同的顏色表示cenp-b盒在連續單體中的出現模式,形成了一幅「彩虹圖」。在x染色體的「彩虹圖」上,他們觀察到主區域呈現穩定的「隔二模式」,但在其一側,出現了一個明顯的「擴張區」,模式突然變成了密度急劇下降的「隔八模式」。這幅圖生動地描繪了x染色體着絲粒的演化史。

第三板斧:利用「節拍模塊」進行精準注釋和糾錯 (model 3)。研究人員提出了「k-pattern」——即由k個連續的cenp-b盒間距值組成的「節拍模塊」。每個染色體都有一套獨特的「k-pattern」曲庫。這個模型被用作一個高精度的「探針」來注釋精細結構。例如,在1號染色體一個長達1.7兆鹼基對的倒位 (inversion) 區域,儘管發生了劇烈的結構重排,倒位內部的「k-pattern」節拍模塊卻幾乎完美保留,表明維持正確的「節拍」對於功能至關重要。這個模型甚至能直接從原始測序數據中「打撈」出特定染色體的着絲粒片段。

跨越個體與物種的『通用語言』:從人類泛基因組到靈長類近親

這項研究的視野並未止步於單個參考基因組。為了驗證這套「條形碼」系統的普適性,研究人員將其應用到了人類泛基因組參考聯盟 (hprc) 的海量數據中,分析了來自全球不同人群的225個單倍型。結果再次印證了他們的發現:cenp-b盒的染色體特異性模式在整個人類群體中都驚人地保守。同時,這個工具也展現了其作為基因組「質檢員」的威力,輕易地就識別出了一些在組裝過程中被錯誤分配的dna片段。

最後,研究人員將目光投向了更廣闊的演化時空,他們分析了我們最親近的靈長類親戚——黑猩猩 (chimpanzee)、倭黑猩猩 (bonobo) 和 大猩猩 (gorilla) 的基因組。分析結果為這個故事寫下了最輝煌的註腳:構成人類染色體「條形碼」的核心距離值,在這些靈長類物種中同樣存在!儘管物種之間存在數百萬年的演化差距,這套基本「語法規則」卻被保留了下來。

這一發現強烈地暗示,我們今天在人類染色體上看到的這套「條形碼」系統,並非新生事物,而是一個在數千萬年前的靈長類共同祖先中就已經存在的、深刻烙印在基因組中的古老建築藍圖

一把解開『生命暗物質』的鑰匙

這項傑出的研究,為我們打開了一扇全新的窗戶,讓我們得以窺見基因組「禁區」——着絲粒——內部的深刻秩序。它告訴我們,生命的編碼方式遠比我們想像的要豐富。有時,信息並不在於「字母」(dna序列),而在於「節奏」(功能基序的間距)。

研究人員發現的染色體特異性「條形碼」和繪製的「centeny圖譜」,以及他們開發的gcp分析工具箱,共同構成了一套革命性的研究框架。它不僅能幫助我們以前所未有的分辨率和可擴展性來注釋、比較和理解着絲粒,還能快速識別染色體結構變異,評估基因組組裝質量,並追溯染色體的演化歷史。

更重要的是,這項工作開啟了無數新的可能性。散布在染色體臂區的那些「外着絲粒序列」(ecss) 究竟扮演着什麼角色?它們是否參與了染色質的高級摺疊,或者調控着基因的表達?這些「條形碼」在癌症等疾病中是否會發生改變?我們能否利用這套系統去探索更多物種的基因組奧秘?

這把鑰匙已經交到我們手中,通往生命「暗物質」世界的大門已經敞開。一個關於着絲粒生物學的全新探索時代,正等待着我們去開啟。




參考文獻


corda l, giunta s. chromosome-specific centromeric patterns define the centeny map of the human genome. science. 2025 jul 3;389(6755):eads3484. doi: 10.1126/science.ads3484. epub 2025 jul 3. pmid: 40608920.


聲明:本文僅用於分享,不代表平台立場,如涉及版權等問題,請儘快聯繫我們,我們第一時間更正,謝謝!

科學分類資訊推薦

記者手記:從「離科學最近的地方」揚帆報國之路 - 天天要聞

記者手記:從「離科學最近的地方」揚帆報國之路

新華社北京7月6日電 記者手記:從「離科學最近的地方」揚帆報國之路新華社記者劉禎7月的北京,驕陽似火。中國科學院大學雁棲湖校區的運動場座無虛席,熱烈的氛圍比驕陽更勝。6日上午,中國科學院大學2025年度畢業典禮暨學位授予儀式在這裡舉行。萬餘名畢業生即將從這個被稱作「離科學最近的地方」啟程,奔赴各自的科學之路...
第42屆全國醫藥工業信息年會和2025北京·昌平生命科學論壇開幕 - 天天要聞

第42屆全國醫藥工業信息年會和2025北京·昌平生命科學論壇開幕

7月6日,第42屆全國醫藥工業信息年會和2025北京·昌平生命科學論壇開幕,聚焦前沿科學、產業趨勢與政策創新,邀請全球生命科學領域各界代表齊聚一堂,共同推動我國醫藥產業高質量發展,塑造具有全球影響力的產業地標。北京市委副書記、市長殷勇致辭並宣布活動開幕。工業和信息化部黨組成員謝遠生,國家藥品監督管理局黨組成...
人體「捉妖記」:免疫系統如何分辨「自我」與「非我」 - 天天要聞

人體「捉妖記」:免疫系統如何分辨「自我」與「非我」

在神秘又奇妙的人體世界裏,免疫系統就像是守護健康的「齊天大聖」,時刻警惕着各路「妖魔鬼怪」的入侵。而要想精準打擊敵人,首先得搞清楚誰是自己人,誰是外來的「妖精」,這就涉及到一個關鍵問題:「自我」與「非我」的識別。大家都知道,在《西遊記》里,妖怪們變化多端,常常混入人群,企圖矇混過關。人體里也一樣,各...
Science | 告別序列依賴,為你的染色體「掃碼」:每條染色體竟自帶獨一無二的「條形碼」 - 天天要聞

Science | 告別序列依賴,為你的染色體「掃碼」:每條染色體竟自帶獨一無二的「條形碼」

引言在人類基因組中,有一片廣袤而神秘的「禁區」,它佔據了每條染色體的核心位置,卻長期以來讓我們束手無策。這片區域就是着絲粒 (Centromere)。它就像基因組中的「百慕大三角」,充滿了高度重複的DNA序列,結構複雜多變,讓傳統的基因測序和分析技術在此屢屢碰壁。然而,這片「禁區」卻掌握着細胞分裂時染色體能否被精確...
Nature | 人類心智的「源代碼」:AI如何學會像我們一樣思考? - 天天要聞

Nature | 人類心智的「源代碼」:AI如何學會像我們一樣思考?

引言人類的心智是如此奇妙,它既能讓我們在清晨糾結於吃什麼早餐,也能驅動我們去攻克癌症、探索遙遠的星辰。我們能從寥寥數次的演示中學會舞步,能進行複雜的因果推理,還能被無盡的好奇心驅使去創造藝術和科學的奇蹟。這種舉重若輕、觸類旁通的「通用性 (generality)」 定義了我們之為人的核心。然而,在人工智能 (AI) 和...