Science | 告別序列依賴,為你的染色體“掃碼”:每條染色體竟自帶獨一無二的“條形碼”

2025年07月06日16:00:15 科學 5705

引言

在人類基因組中,有一片廣袤而神秘的“禁區”,它佔據了每條染色體的核心位置,卻長期以來讓我們束手無策。這片區域就是着絲粒 (centromere)。它就像基因組中的“百慕大三角”,充滿了高度重複的dna序列,結構複雜多變,讓傳統的基因測序和分析技術在此屢屢碰壁。然而,這片“禁區”卻掌握着細胞分裂時染色體能否被精確分離的關鍵,其失常與癌症、發育異常等多種疾病息息相關。我們如何才能讀懂這片充滿變數又至關重要的區域呢?

7月3日,一篇發表在science上的研究“chromosome-specific centromeric patterns define the centeny map of the human genome”,為我們提供了一把前所未有的“鑰匙”。研究人員繞開了直接解讀那些“亂碼”般序列的傳統思路,另闢蹊徑,發現了一種隱藏在混亂背後的秩序——一種由特定dna基序 (motif) 的間距構成的、每條染色體獨有的“條形碼”。這一發現不僅為我們揭示了着絲粒的古老建築藍圖,更繪製出了一幅全新的、高分辨率的人類基因組“導航圖”,為我們提供了一個全新的視角來審視染色體。
Science | 告別序列依賴,為你的染色體“掃碼”:每條染色體竟自帶獨一無二的“條形碼” - 天天要聞

基因組的‘百慕大三角’:為什麼着絲粒如此神秘?

如果你正在拼一幅巨大的拼圖,大部分區域,比如風景、建築,都有着清晰的特徵,讓你能按圖索驥。但突然,你遇到了一大片純藍色的天空,成千上萬的拼圖塊看起來一模一樣。這就是研究人員在面對着絲粒時的窘境。

人類的着絲粒主要由一種叫做α-衛星dna (alpha-satellite dna, asat) 的序列大量串聯重複而成。這些重複單元(稱為單體 (monomer))的長度大約為171個鹼基對,它們成千上萬地排列在一起,構成了長達數百萬個鹼基對的巨大陣列。更複雜的是,這些重複序列並非一成不變。在不同的人之間,甚至在同一個人的兩條同源染色體之間,着絲粒的dna序列、長度和結構都存在巨大差異。這種“快速進化”的特性,使得通過傳統的序列比對方法來研究着絲粒,就像在流沙上建造城堡一樣困難。

然而,功能上的保守性提示我們,背後必有蹊蹺。無論dna序列如何變化,着絲粒都必須精確地執行其在細胞分裂中的“牽引繩”功能。這暗示着,決定着絲粒功能的,可能並非dna序列本身,而是基於這些序列形成的、一種更高級的結構或“表觀遺傳”標記。

在這片混亂的α-衛星dna海洋中,有一個相對穩定的“燈塔”——着絲粒蛋白b (cenp-b)。它是目前已知的唯一能直接結合特定dna序列的着絲粒蛋白。它識別並結合的是一個長約17個核苷酸的特定序列,被稱為cenp-b盒 (cenp-b box)

研究人員提出了一個大膽而巧妙的假設:既然直接比較那些雜亂無章的α-衛星dna序列行不通,那麼,我們能否忽略序列本身,轉而關注這些cenp-b盒“燈塔”的空間分布規律呢?或許,在不同的染色體上,這些cenp-b盒之間的距離 (distance) 遵循着某種特定的、被保守下來的“節拍”或“韻律”。如果這個假設成立,我們就能將複雜難解的dna序列“解碼”成一組簡單的數字——也就是這些燈塔之間的距離值,從而找到一種全新的、可量化的方式來描述和比較着絲粒。

為了驗證這一想法,他們開發了一套名為“基因組着絲粒分析” (genomic centromere profiling, gcp) 的計算流程。這個工具的核心功能,就是自動化地在整個基因組中定位每一個cenp-b盒,並精確計算出相鄰兩個cenp-b盒之間的鹼基對距離。這就像是給基因組配備了一把高精度的“數字尺子”,專門用來測量這些關鍵地標之間的間距。

從混亂中發現秩序:每條染色體都有自己的‘節拍’

當研究人員將gcp流程應用於目前最完整的人類參考基因組——t2t-chm13——時,驚人的發現出現了。分析結果顯示,cenp-b盒之間的距離並非隨機分布,而是集中在幾個特定的數值範圍內。這些距離值背後,隱藏着着絲粒的基本結構單元——α-衛星單體的組織方式。例如,一個約150個鹼基對 (bp)的距離,意味着幾乎每一個 (every-monomer) α-衛星單體上都有一個cenp-b盒。一個約323 bp的距離,則對應着“隔一模式” (every-other-monomer),即一個單體有cenp-b盒,下一個則沒有,如此交替出現,這也是在大多數染色體中最常見的組織形式。此外,還存在着約492 bp(隔二模式)、663 bp(隔三模式)、833 bp(隔四模式)等更長的距離。

這僅僅是開始。真正讓研究人員興奮的是,當他們將這些距離數據按染色體進行分類後,一幅壯觀的圖景展現在眼前。他們繪製了一張熱圖,圖中每一行代表一個特定的距離值,每一列代表一條染色體,顏色的深淺則表示該距離在對應染色體上出現的頻率。

這張熱圖清晰地揭示了:每條人類染色體都擁有一套獨一無二的、由cenp-b盒間距構成的“條形碼”!

例如,17號染色體的“條形碼”以高頻率的“每一模式”(約148-150 bp)為主,顯示出非常密集的cenp-b盒排布。而x染色體則是一個“異類”,它的條形碼中幾乎完全沒有最常見的“隔一模式”(323 bp左右的距離),其最主要的節拍是“隔二模式”(約494 bp)和“隔四模式”(約833 bp),這表明x染色體的着絲粒經歷了一條與眾不同的演化路徑。其他染色體,如1、5、19號染色體等,則共享着一種以“隔一模式”(約320、322、324 bp)為主的相似條形碼,但彼此之間仍有細微差別。

這個發現的意義是革命性的。它意味着,我們終於有了一種不依賴於dna序列比對,卻能精確區分不同染色體着絲粒的方法。這個“條形碼”就像是每條染色體的“身份證”。為了驗證其普適性,研究人員將分析擴展到了更多的人類基因組樣本中,包括來自不同個體的rpe-1hg002細胞系的二倍體基因組。結果令人振奮:無論是在不同個體間,還是在同一個體的兩條同源染色體之間,這種染色體特異性的“條形碼”都表現出了高度的保守性。這有力地證明,這套“節拍系統”並非偶然,而是被寫進人類遺傳物質深處的一套穩定而古老的建築規則。

不止於中心:繪製全新的全基因組‘cenp-b導航圖’

隨着研究的深入,一個更大的驚喜浮出水面。研究人員發現,cenp-b盒並非只存在於着絲粒這個“核心區”。它們實際上像星辰一樣,散布在每條染色體的整個臂區 (chromosome arms)!這些位於着絲粒之外的cenp-b盒,被研究人員命名為“外着絲粒序列” (ectocentromeric sequences, ecss)

更令人驚訝的是,就連過去被認為完全沒有cenp-b盒的y染色體,也被發現其臂區上存在着這些序列。這些臂區上的cenp-b盒同樣不是隨機散落的,它們的排布位置、方向(正向或反向)以及組織方式,也構成了每條染色體獨有的模式。

基於這一發現,研究人員構建了一幅前所未有的全基因組地圖。他們將這種利用着絲粒元件(cenp-b盒)的分布模式來定義基因組特徵的方法,巧妙地命名為“cen-teny”——一個融合了“centromere”(着絲粒)和“synteny”(同線性)的自創新詞。這幅“centeny圖譜”,用不同顏色的標記(例如,藍色代表正向,紅色代表反向)在每條染色體上標註出所有cenp-b盒的位置和方向。

這幅圖譜就像一個高精度的全基因組gps導航系統,其威力很快就得到了證實。研究人員分析了一個已知的特殊細胞系——rpe-1,該細胞系的x染色體發生了一次易位 (translocation),其長臂的末端與10號染色體長臂的一部分發生了交換。在“centeny圖譜”上,這一切變得一目了然。研究人員發現,在這條衍生x染色體上,其“centeny圖譜”前半部分完美匹配正常的x染色體“條形碼”,但在易位斷點之後,圖譜模式突然切換,變成了10號染色體長臂所特有的“條形碼”!這種清晰的模式拼接,如同一份不容置疑的“法證報告”,精準地指出了結構變異的發生位置和拼接來源。

解碼着絲粒的‘三板斧’:分類,尋蹤,和糾錯

有了這套強大的gcp流程和“centeny”概念,研究人員進一步開發了三個環環相扣的分析模型,如同三板斧,精準地劈開了着絲粒研究中的重重迷霧。

第一板斧:基於“條形碼”的染色體家族重分類 (model 1)。過去,研究人員根據α-衛星單體的序列相似性,將人類染色體劃分為幾個“超家族”。現在,研究人員利用cenp-b盒間距的“條形碼”作為特徵,對人類染色體進行了重新聚類。結果顯示,染色體被分成了四個主要的新“超家族”,例如4、18、9、11號染色體聚為一類,而x和17號染色體則因其獨特的“條形碼”自成一派。

第二板斧:追蹤着絲粒的“分層演化”歷史 (model 2)。着絲粒如何演化?一個流行的理論是“分層擴張”。研究人員的第二個模型,巧妙地將這一過程可視化了。他們用不同的顏色表示cenp-b盒在連續單體中的出現模式,形成了一幅“彩虹圖”。在x染色體的“彩虹圖”上,他們觀察到主區域呈現穩定的“隔二模式”,但在其一側,出現了一個明顯的“擴張區”,模式突然變成了密度急劇下降的“隔八模式”。這幅圖生動地描繪了x染色體着絲粒的演化史。

第三板斧:利用“節拍模塊”進行精準注釋和糾錯 (model 3)。研究人員提出了“k-pattern”——即由k個連續的cenp-b盒間距值組成的“節拍模塊”。每個染色體都有一套獨特的“k-pattern”曲庫。這個模型被用作一個高精度的“探針”來注釋精細結構。例如,在1號染色體一個長達1.7兆鹼基對的倒位 (inversion) 區域,儘管發生了劇烈的結構重排,倒位內部的“k-pattern”節拍模塊卻幾乎完美保留,表明維持正確的“節拍”對於功能至關重要。這個模型甚至能直接從原始測序數據中“打撈”出特定染色體的着絲粒片段。

跨越個體與物種的‘通用語言’:從人類泛基因組到靈長類近親

這項研究的視野並未止步於單個參考基因組。為了驗證這套“條形碼”系統的普適性,研究人員將其應用到了人類泛基因組參考聯盟 (hprc) 的海量數據中,分析了來自全球不同人群的225個單倍型。結果再次印證了他們的發現:cenp-b盒的染色體特異性模式在整個人類群體中都驚人地保守。同時,這個工具也展現了其作為基因組“質檢員”的威力,輕易地就識別出了一些在組裝過程中被錯誤分配的dna片段。

最後,研究人員將目光投向了更廣闊的演化時空,他們分析了我們最親近的靈長類親戚——黑猩猩 (chimpanzee)、倭黑猩猩 (bonobo) 和 大猩猩 (gorilla) 的基因組。分析結果為這個故事寫下了最輝煌的註腳:構成人類染色體“條形碼”的核心距離值,在這些靈長類物種中同樣存在!儘管物種之間存在數百萬年的演化差距,這套基本“語法規則”卻被保留了下來。

這一發現強烈地暗示,我們今天在人類染色體上看到的這套“條形碼”系統,並非新生事物,而是一個在數千萬年前的靈長類共同祖先中就已經存在的、深刻烙印在基因組中的古老建築藍圖

一把解開‘生命暗物質’的鑰匙

這項傑出的研究,為我們打開了一扇全新的窗戶,讓我們得以窺見基因組“禁區”——着絲粒——內部的深刻秩序。它告訴我們,生命的編碼方式遠比我們想象的要豐富。有時,信息並不在於“字母”(dna序列),而在於“節奏”(功能基序的間距)。

研究人員發現的染色體特異性“條形碼”和繪製的“centeny圖譜”,以及他們開發的gcp分析工具箱,共同構成了一套革命性的研究框架。它不僅能幫助我們以前所未有的分辨率和可擴展性來注釋、比較和理解着絲粒,還能快速識別染色體結構變異,評估基因組組裝質量,並追溯染色體的演化歷史。

更重要的是,這項工作開啟了無數新的可能性。散布在染色體臂區的那些“外着絲粒序列”(ecss) 究竟扮演着什麼角色?它們是否參與了染色質的高級摺疊,或者調控着基因的表達?這些“條形碼”在癌症等疾病中是否會發生改變?我們能否利用這套系統去探索更多物種的基因組奧秘?

這把鑰匙已經交到我們手中,通往生命“暗物質”世界的大門已經敞開。一個關於着絲粒生物學的全新探索時代,正等待着我們去開啟。




參考文獻


corda l, giunta s. chromosome-specific centromeric patterns define the centeny map of the human genome. science. 2025 jul 3;389(6755):eads3484. doi: 10.1126/science.ads3484. epub 2025 jul 3. pmid: 40608920.


聲明:本文僅用於分享,不代表平台立場,如涉及版權等問題,請儘快聯繫我們,我們第一時間更正,謝謝!

科學分類資訊推薦

記者手記:從“離科學最近的地方”揚帆報國之路 - 天天要聞

記者手記:從“離科學最近的地方”揚帆報國之路

新華社北京7月6日電 記者手記:從“離科學最近的地方”揚帆報國之路新華社記者劉禎7月的北京,驕陽似火。中國科學院大學雁棲湖校區的運動場座無虛席,熱烈的氛圍比驕陽更勝。6日上午,中國科學院大學2025年度畢業典禮暨學位授予儀式在這裡舉行。萬餘名畢業生即將從這個被稱作“離科學最近的地方”啟程,奔赴各自的科學之路...
第42屆全國醫藥工業信息年會和2025北京·昌平生命科學論壇開幕 - 天天要聞

第42屆全國醫藥工業信息年會和2025北京·昌平生命科學論壇開幕

7月6日,第42屆全國醫藥工業信息年會和2025北京·昌平生命科學論壇開幕,聚焦前沿科學、產業趨勢與政策創新,邀請全球生命科學領域各界代表齊聚一堂,共同推動我國醫藥產業高質量發展,塑造具有全球影響力的產業地標。北京市委副書記、市長殷勇致辭並宣布活動開幕。工業和信息化部黨組成員謝遠生,國家藥品監督管理局黨組成...
人體“捉妖記”:免疫系統如何分辨“自我”與“非我” - 天天要聞

人體“捉妖記”:免疫系統如何分辨“自我”與“非我”

在神秘又奇妙的人體世界裡,免疫系統就像是守護健康的“齊天大聖”,時刻警惕着各路“妖魔鬼怪”的入侵。而要想精準打擊敵人,首先得搞清楚誰是自己人,誰是外來的“妖精”,這就涉及到一個關鍵問題:“自我”與“非我”的識別。大家都知道,在《西遊記》里,妖怪們變化多端,常常混入人群,企圖矇混過關。人體里也一樣,各...
Science | 告別序列依賴,為你的染色體“掃碼”:每條染色體竟自帶獨一無二的“條形碼” - 天天要聞

Science | 告別序列依賴,為你的染色體“掃碼”:每條染色體竟自帶獨一無二的“條形碼”

引言在人類基因組中,有一片廣袤而神秘的“禁區”,它佔據了每條染色體的核心位置,卻長期以來讓我們束手無策。這片區域就是着絲粒 (Centromere)。它就像基因組中的“百慕大三角”,充滿了高度重複的DNA序列,結構複雜多變,讓傳統的基因測序和分析技術在此屢屢碰壁。然而,這片“禁區”卻掌握着細胞分裂時染色體能否被精確...
Nature | 人類心智的“源代碼”:AI如何學會像我們一樣思考? - 天天要聞

Nature | 人類心智的“源代碼”:AI如何學會像我們一樣思考?

引言人類的心智是如此奇妙,它既能讓我們在清晨糾結於吃什麼早餐,也能驅動我們去攻克癌症、探索遙遠的星辰。我們能從寥寥數次的演示中學會舞步,能進行複雜的因果推理,還能被無盡的好奇心驅使去創造藝術和科學的奇蹟。這種舉重若輕、觸類旁通的“通用性 (generality)” 定義了我們之為人的核心。然而,在人工智能 (AI) 和...