Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架

2022年07月01日14:00:34 科學 1403

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

EagleC是一個結合了深度學習和集成學習策略的框架,能以高分辨率預測全範圍的結構變異。

背景介紹

結構變異(SVs),包括缺失、倒置、重複和易位等,可通過多種機制直接導致腫瘤和其他疾病的發生。最近,研究表明,SVs可以將遠端增強子帶到原癌基因附近,並通過一種被稱為增強子劫持的機制,導致致癌基因表達上調。複發性SVs的發現,大大提高了人們對腫瘤發生的認識,有利於有效的靶向治療。

儘管它們很重要,但全基因組檢測SVs仍然是一個具有挑戰性的問題。傳統上,核型分析一直是臨床檢測各種遺傳病的主要方法,本質上是一種低吞吐量和低分辨率的方法。另外,基因芯片已被用於識別遺傳物質的得失,但它在檢測拷貝數中性事件如倒置和平衡易位方面有局限性。近年來,短讀全基因組測序(short-read全基因組測序,WGS),因其高分辨率、高通量和簡單性而被廣泛用於識別各種基因組變異。但由於短讀的可映射性問題,使用WGS很難檢測到重複性區域的SVs。

最近,研究者及其他團隊發現了Hi-C,一種最初被用於研究三維基因組結構的技術也可以用於系統的SV檢測,基因組覆蓋率低至1×。到目前為止,人們已經提出了三種利用Hi-C數據預測SVs的方法,但均有其局限性因此不是最優的。HiCtrans和HiNT-TL無法預測染色體內SVs,而Hi-C breakfinder只能檢測到大小為>1 Mb的大的染色體內SVs。

主要內容

美國西北大學的岳峰等人開發出的EagleC可以獨特地捕獲一組全基因組測序或納米孔缺失的融合基因,在精確度和召回率方面都優於現有方法。此外,EagleC還能在其他染色質相互作用平台上有效捕獲SVs,如HiChIP、染色質相互作用分析與成對末端標籤測序(ChIA-PET),並捕獲Hi-C。研究者將EagleC應用於100多個癌症細胞系和原發腫瘤,並識別出一組有價值的高質量SVs。最後,研究者證明EagleC可以應用於單細胞Hi-C,並用於研究原發性腫瘤中SV的異質性。

EagleC框架概述

圖1A描述了EagleC框架的總體設計。正訓練樣本被定義為圍繞一組高置信度SVs的Hi-C接觸矩陣,這些SVs通過WGS和光學圖譜在8個癌細胞系(A549、Caki2、K562、LNCaP、NCI-H460、PANC-1、SK-N-MC和T47D)中被檢測到。此外,為了使模型能夠區分真實的SV信號和正常3D基因組特徵誘導的假陽性信號,研究者從正常細胞系GM12878的Hi-C圖譜中,採樣了數量相近的染色體內和染色體間亞基,並分別標記為內負性和間負性。此外,還包括來自癌症Hi-C數據的矩陣,它們位於SV塊中但不與斷點重疊,是額外的負數據集。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖1. EagleC根據染色質相互作用數據預測了全範圍的高分辨率SVs。圖片來自Sci. Adv.

研究者使用訓練樣本的下採樣版本,訓練了一系列針對不同測序深度優化的EagleC模型。為了研究EagleC的性能,研究者預測了訓練過程中未使用的其他癌症Hi-C數據集中的SVs(文中默認所有SVs分辨率均為5kb)。EagleC成功預測了不同類型的SVs,包括斷點距離小於1 Mb甚至100 kb的短程SVs(圖1,B-D)、大的染色體內SVs(圖1E)、互易的染色體間易位(圖1F)和非互易的染色體間易位(圖1G)。

EagleC在Hi-C圖上檢測SVs中優於現有的方法

研究者首先直觀地檢查了預測結果,發現幾乎所有具有異常高相互作用頻率的塊都被預測為SVs,這表明框架具有很高的靈敏度(圖2A)。在許多情況下,雖然EagleC和Hi-C breakfinder預測了相同的SV塊,但預測斷點的確切坐標不同,EagleC預測斷點更有可能被WGS驗證(圖2A,區域“A”,“C”,“D”和“E”)。此外,EagleC在5kb分辨率下預測的斷點比Hi-C breakfinder預測的更精確,Hi-C breakfinder通常是100kb分辨率。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖2. EagleC在精確度和召回率上的優越表現。圖片來自Sci. Adv.

然後,研究者對兩種目前唯一可以識別染色體內SVs的方法---EagleC和Hi-C breakfinder進行了更深入的比較。值得注意的是,EagleC在BT-474、HCC1954和MCF7中檢測到的SVs(包括染色體間易位和染色體內SVs)分別是Hi-C breakfinder的2.4倍(244/100)、2.6倍(410/157)和4.8倍(244/51)(圖2B)。同時,EagleC在這些細胞系中取得了明顯高於Hi-C breakfinder的精度率。

在BT-474中,24.2%的EagleC預測的SVs與59.0%的Hi-C breakfinder預測相匹配。在EagleC特有的185個SVs中,83.2%可以通過WGS或納米孔進行驗證,相比之下,Hi-C breakfinder特有SVs的驗證率為2.4% (圖2C)。

接下來,研究者將分析擴展到另外26個具有Hi-C和WGS數據的癌症細胞系或患者樣本。再次觀察到,與Hi-C breakfinder相比,EagleC在所有26個癌症樣本中取得了顯著更高的召回率和準確率(圖2D-F)。由於算法本身的局限性,Hi-C breakfinder只能檢測到大於1 Mb的大的染色體內SVs。但是,如圖2G所示,EagleC預測的39.5%的染色體內SVs是短距離SVs,最小為35 kb。令人驚訝的是,儘管人們認為很難將這一範圍的SVs與其他Hi-C接觸模式區分開來,但它們的預測精度甚至高於遠程SVs和易位(圖2H)。

EagleC檢測癌症中新的融合基因

如圖3A所示,EagleC在MCF7中檢測到了ATXN7和BCAS3基因內部的斷點,而arriba軟件也預測了這兩個基因的融合(圖3A,右)。研究者在圖3中展示了另外兩個這樣的例子,表明由於EagleC的高分辨率特性,它可以獨特地預測WGS和納米孔缺失的融合基因。另外,與未進行融合的非惡性細胞系相比,參與這些融合事件的基因在癌細胞中顯著過表達(圖3D)。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖3. EagleC唯一檢測到的融合基因在癌細胞中過表達。圖片來自Sci. Adv.

EagleC可以使用其他基於3C的技術準確地預測SVs

研究者直接將Hi-C數據訓練的EagleC模型,應用於CTCF ChIA-PET和Pol2 ChIA-PET。總的來說,EagleC在Hi-C、CTCF ChIA-PET和Pol2 ChIA-PET中預測了類似數量的SVs,並且三個數據集之間有很大的重疊(圖4A-B)。例如,EagleC在CTCF ChIA-PET中預測了226個SVs,其中66.4%在Hi-C中也預測到了。同樣,Pol2 ChIA-PET中預測的62.8%(196個中的123個)SVs與Hi-C預測的50.4%(244個中的123個)相匹配。就精度而言,相比於Hi-C(73.8%),EagleC在兩個ChIA-PET數據集中取得了相當的精度(CTCF,65.5%;和Pol2, 68.2%)(圖4C)。此外,研究者觀察到,在所有10個與WGS數據匹配的HiChIP/ChIA-PET數據集中,EagleC預測的SVs的召回率和準確率都顯著高於Hi-C breakfinder(圖4D-F)。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖4. EagleC可以準確預測HiChIP和ChIA-PET接觸圖上的SVs。圖片來自Sci. Adv.

105例腫瘤標本中SVs的檢測

如果在同一個樣本中有多個數據集可用,將它們的結果結合起來可以形成更全面的SV注釋集。研究者預測了所有樣本中的5620個SVs,每個樣本中的數量從2到410不等(圖5A)。所有樣本數據中,30.9%的預測SVs是短程SVs (<1 Mb),35.7%是長程SVs,33.4%是染色體間易位。

在超級酶尺度上,哺乳動物的基因組被組織成TADs。CTCF結合位點富集的TAD邊界為適當的基因調控提供了一個絕緣的環境。與隨機打亂的SV的預期分布相比,研究者發現SV的斷點明顯靠近TAD邊界,這與之前的研究結果一致,即DNA拓撲異構酶II beta (TOP2B)介導的DNA雙鏈斷裂在染色質環的錨點富集(圖5C)。總體而言,約10%的SVs發生在TAD邊界之間,37.5%發生在TAD邊界與TAD內區域之間,52.5%發生在TAD內區域之間(圖5D)。此外,研究者發現癌症相關基因的轉錄起始位點(TSSs)在斷點相關的TAD邊界特異富集(圖5E)。這表明基因組重排列破壞TAD邊界,可能是致癌基因失調和腫瘤發生的重要機制。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖5. 105株癌細胞或患者樣本中SVs的泛癌分析。圖片來自Sci. Adv.

為了進一步探索研究者的SV注釋的價值,研究者鑒定了不同樣本中反覆受到短程SV影響的基因。結果發現大部分缺失的基因是腫瘤抑制基因(圖5F),如CDKN2A/2B、WWOX、CHFR和MSH2基因。另一方面,在重複區域內的很多基因都是癌基因(圖5G),如MYC。CD44基因是癌症幹細胞的常見生物標誌物,編碼一種參與腫瘤起始和進展的細胞表面糖蛋白。

EagleC預測單細胞中已知的染色體間易位

為了使EagleC在每個細胞接觸信息有限的情況下適用於scHi-C,研究者將相同的8個癌細胞株和GM12878細胞的接觸圖譜降採樣到可比較的測序深度,並在500 kb分辨率下重新訓練模型。然後,研究者在HAP1和K562中發表的scHi-C數據集上測試了EagleC,這兩種細胞都是慢性髓系白血病細胞系。HAP1細胞中9號染色體和22號染色體為互易位,而K562細胞中9號染色體和22號染色體為非互易位。HAP1數據集包含256個單細胞,每個細胞中位數為18793個接觸,而K562數據集包含337個細胞,每個細胞中位數僅為3974個接觸(圖6A)。值得注意的是,即使使用這些極其稀疏的接觸矩陣,EagleC也能夠預測單細胞中已知的chr9-chr22易位(圖6B-C)。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖6. EagleC可以準確預測HiChIP和ChIA-PET接觸圖上的SVs。圖片來自Sci. Adv.

為了系統地研究準確預測單個細胞中SVs的接觸數下限,研究者根據測序深度對所有256個HAP1細胞進行了排序,並通過匯聚到99個最深的單個細胞產生了一系列的接觸矩陣(接觸對從148635萬到405萬)(圖6D)。正如預期的那樣,預測的SVs數量隨着細胞數量的增加而減少(圖6E)。

結論總結

本文利用CNNs在圖像識別和集成學習避免過擬合問題的優勢開發的EagleC不僅能預測出唯一的近距離SVs,且與現有方法相比,大大提高了整體預測能力。本文證明了利用Hi-C檢測融合基因的可行性,雖然目前的框架無法達到鹼基對分辨率,但與RNA-seq相比,Hi-C在檢測內含子內融合點方面具有獨特的能力。此外,EagleC可以作為一個通用模型來預測SVs,使用其他基於3C的接觸圖,包括ChIA-PET,HiChIP/PLAC-Seq,capture Hi-C,甚至是scHi-C。

參考文獻

Wang X, Luan Y, Yue F. EagleC: A deep-learning framework for detecting a full range of structural variations from bulk and single-cell contact maps[J]. Science Advances, 2022, 8(24): eabn9215.

中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載

科學分類資訊推薦

科普日曆 | 端午安康,心有所憶 - 天天要聞

科普日曆 | 端午安康,心有所憶

五月五,過端午。端午節,是中國四大傳統節日之一,涵蓋了古老星象文化、人文哲學和民俗風情等,源遠流長,博大精深。每一個節日都凝聚着群體共同的情感與想象,也保留着群體的記憶。
冷空氣要來了!北方極端高溫即將消退,南方接力近40度高溫! - 天天要聞

冷空氣要來了!北方極端高溫即將消退,南方接力近40度高溫!

引言今年的夏季,無疑是火熱的一年。不同於往年南方梅雨季的涼爽,今年南方氣溫明顯偏高,而北方則是高溫持續,炎熱難耐。這種南北溫差異常明顯的天氣,其實背後有着許多複雜的原因。本文將就今年夏季南北溫差大的原因,以及後期氣溫分布情況進行分析。
嫦娥六號秀大腳,再次打臉阿波羅? - 天天要聞

嫦娥六號秀大腳,再次打臉阿波羅?

嫦娥六號成功完成了月球背面鑽探取樣工作,啟程返回地球。似乎故事到這兒就已經告一段落,可沒成想,嫦娥傳回來的一張“大腳丫子”照片再次引發熱烈討論,有許多朋友據此質疑阿波羅登月涉嫌造假。嫦娥六號發回月球背面挖土照片在嫦娥六號全景相機拍攝的影像中,我們明顯看到着陸器支撐腿把月球表面砸出了一個坑,嫦娥的“腳...
瑞士清潔科技公司Enerdrape開發預製地熱板,回收城市地下空間的淺層地熱能和廢熱用於建築物制熱或製冷 | 瑞士創新100強 - 天天要聞

瑞士清潔科技公司Enerdrape開發預製地熱板,回收城市地下空間的淺層地熱能和廢熱用於建築物制熱或製冷 | 瑞士創新100強

圖源EPFL官網鈦媒體APP註:瑞士連續12年全球創新指數競爭力排名第一,是全球重要的創新策源地,也是中國首個創新戰略夥伴關係國,在創新發展和科技金融領域與中國具有極佳互補性。由Venturelab主辦的“瑞士創新100強”,匯聚了最佳“瑞士製造”的初創及成長期科技創新企業,是瑞士最具國際影響力的創新生態標杆。自2011年以...
日本:觸手展開超3米 巨型章魚現身北海道 - 天天要聞

日本:觸手展開超3米 巨型章魚現身北海道

近日,在日本北海道的知床半島羅臼海域,出現了令人驚嘆的一幕——一隻觸手展開超 3 米的巨型章魚現身於此。這一消息迅速引起了廣泛的關注和熱議。據《朝日新聞》6 月 9 日的報道,這種被確認為北太平洋巨型章魚的龐然大物,以其巨大的體型震撼着人們
土衛二,一顆冰冷的衛星,那裡會有生命嗎? - 天天要聞

土衛二,一顆冰冷的衛星,那裡會有生命嗎?

一片神秘的地外海洋,究竟住着誰?一起來看看土衛二上的原住民!"通過卡西尼號的測量,我們知道土衛二的海洋是宜居的。我們知道那裡有液態水、能源以及碳、氫、氮、氧、磷和硫等化學物質。"圖示:土衛二噴出的冰羽流。(圖片來源:美國宇航局)新的研究表明,在土星衛星恩克拉多斯的表面有一些地方,航天器可以在那裡着陸,...
就在端午,準備觀賞! - 天天要聞

就在端午,準備觀賞!

星空有約|月亮“邂逅”星團,這幕美景別錯過端午節當天傍晚,一彎蛾眉月將與著名的蜂巢星團近距離相伴,屆時只要天氣晴好,感興趣的公眾將會目睹到這兩個不同天體上演的“親密一幕”。由於23時左右月亮才會從西方落下,因此觀賞、拍攝這一幕美景的時間比較