Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架

2022年07月01日14:00:34 科學 1403

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

EagleC是一個結合了深度學習和集成學習策略的框架,能以高分辨率預測全範圍的結構變異。

背景介紹

結構變異(SVs),包括缺失、倒置、重複和易位等,可通過多種機制直接導致腫瘤和其他疾病的發生。最近,研究表明,SVs可以將遠端增強子帶到原癌基因附近,並通過一種被稱為增強子劫持的機制,導致致癌基因表達上調。複發性SVs的發現,大大提高了人們對腫瘤發生的認識,有利於有效的靶向治療。

儘管它們很重要,但全基因組檢測SVs仍然是一個具有挑戰性的問題。傳統上,核型分析一直是臨床檢測各種遺傳病的主要方法,本質上是一種低吞吐量和低分辨率的方法。另外,基因芯片已被用於識別遺傳物質的得失,但它在檢測拷貝數中性事件如倒置和平衡易位方面有局限性。近年來,短讀全基因組測序(short-read全基因組測序,WGS),因其高分辨率、高通量和簡單性而被廣泛用於識別各種基因組變異。但由於短讀的可映射性問題,使用WGS很難檢測到重複性區域的SVs。

最近,研究者及其他團隊發現了Hi-C,一種最初被用於研究三維基因組結構的技術也可以用於系統的SV檢測,基因組覆蓋率低至1×。到目前為止,人們已經提出了三種利用Hi-C數據預測SVs的方法,但均有其局限性因此不是最優的。HiCtrans和HiNT-TL無法預測染色體內SVs,而Hi-C breakfinder只能檢測到大小為>1 Mb的大的染色體內SVs。

主要內容

美國西北大學的岳峰等人開發出的EagleC可以獨特地捕獲一組全基因組測序或納米孔缺失的融合基因,在精確度和召回率方面都優於現有方法。此外,EagleC還能在其他染色質相互作用平台上有效捕獲SVs,如HiChIP、染色質相互作用分析與成對末端標籤測序(ChIA-PET),並捕獲Hi-C。研究者將EagleC應用於100多個癌症細胞系和原發腫瘤,並識別出一組有價值的高質量SVs。最後,研究者證明EagleC可以應用於單細胞Hi-C,並用於研究原發性腫瘤中SV的異質性。

EagleC框架概述

圖1A描述了EagleC框架的總體設計。正訓練樣本被定義為圍繞一組高置信度SVs的Hi-C接觸矩陣,這些SVs通過WGS和光學圖譜在8個癌細胞系(A549、Caki2、K562、LNCaP、NCI-H460、PANC-1、SK-N-MC和T47D)中被檢測到。此外,為了使模型能夠區分真實的SV信號和正常3D基因組特徵誘導的假陽性信號,研究者從正常細胞系GM12878的Hi-C圖譜中,採樣了數量相近的染色體內和染色體間亞基,並分別標記為內負性和間負性。此外,還包括來自癌症Hi-C數據的矩陣,它們位於SV塊中但不與斷點重疊,是額外的負數據集。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖1. EagleC根據染色質相互作用數據預測了全範圍的高分辨率SVs。圖片來自Sci. Adv.

研究者使用訓練樣本的下採樣版本,訓練了一系列針對不同測序深度優化的EagleC模型。為了研究EagleC的性能,研究者預測了訓練過程中未使用的其他癌症Hi-C數據集中的SVs(文中默認所有SVs分辨率均為5kb)。EagleC成功預測了不同類型的SVs,包括斷點距離小於1 Mb甚至100 kb的短程SVs(圖1,B-D)、大的染色體內SVs(圖1E)、互易的染色體間易位(圖1F)和非互易的染色體間易位(圖1G)。

EagleC在Hi-C圖上檢測SVs中優於現有的方法

研究者首先直觀地檢查了預測結果,發現幾乎所有具有異常高相互作用頻率的塊都被預測為SVs,這表明框架具有很高的靈敏度(圖2A)。在許多情況下,雖然EagleC和Hi-C breakfinder預測了相同的SV塊,但預測斷點的確切坐標不同,EagleC預測斷點更有可能被WGS驗證(圖2A,區域「A」,「C」,「D」和「E」)。此外,EagleC在5kb分辨率下預測的斷點比Hi-C breakfinder預測的更精確,Hi-C breakfinder通常是100kb分辨率。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖2. EagleC在精確度和召回率上的優越表現。圖片來自Sci. Adv.

然後,研究者對兩種目前唯一可以識別染色體內SVs的方法---EagleC和Hi-C breakfinder進行了更深入的比較。值得注意的是,EagleC在BT-474、HCC1954和MCF7中檢測到的SVs(包括染色體間易位和染色體內SVs)分別是Hi-C breakfinder的2.4倍(244/100)、2.6倍(410/157)和4.8倍(244/51)(圖2B)。同時,EagleC在這些細胞系中取得了明顯高於Hi-C breakfinder的精度率。

在BT-474中,24.2%的EagleC預測的SVs與59.0%的Hi-C breakfinder預測相匹配。在EagleC特有的185個SVs中,83.2%可以通過WGS或納米孔進行驗證,相比之下,Hi-C breakfinder特有SVs的驗證率為2.4% (圖2C)。

接下來,研究者將分析擴展到另外26個具有Hi-C和WGS數據的癌症細胞系或患者樣本。再次觀察到,與Hi-C breakfinder相比,EagleC在所有26個癌症樣本中取得了顯著更高的召回率和準確率(圖2D-F)。由於算法本身的局限性,Hi-C breakfinder只能檢測到大於1 Mb的大的染色體內SVs。但是,如圖2G所示,EagleC預測的39.5%的染色體內SVs是短距離SVs,最小為35 kb。令人驚訝的是,儘管人們認為很難將這一範圍的SVs與其他Hi-C接觸模式區分開來,但它們的預測精度甚至高於遠程SVs和易位(圖2H)。

EagleC檢測癌症中新的融合基因

如圖3A所示,EagleC在MCF7中檢測到了ATXN7和BCAS3基因內部的斷點,而arriba軟件也預測了這兩個基因的融合(圖3A,右)。研究者在圖3中展示了另外兩個這樣的例子,表明由於EagleC的高分辨率特性,它可以獨特地預測WGS和納米孔缺失的融合基因。另外,與未進行融合的非惡性細胞系相比,參與這些融合事件的基因在癌細胞中顯著過表達(圖3D)。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖3. EagleC唯一檢測到的融合基因在癌細胞中過表達。圖片來自Sci. Adv.

EagleC可以使用其他基於3C的技術準確地預測SVs

研究者直接將Hi-C數據訓練的EagleC模型,應用於CTCF ChIA-PET和Pol2 ChIA-PET。總的來說,EagleC在Hi-C、CTCF ChIA-PET和Pol2 ChIA-PET中預測了類似數量的SVs,並且三個數據集之間有很大的重疊(圖4A-B)。例如,EagleC在CTCF ChIA-PET中預測了226個SVs,其中66.4%在Hi-C中也預測到了。同樣,Pol2 ChIA-PET中預測的62.8%(196個中的123個)SVs與Hi-C預測的50.4%(244個中的123個)相匹配。就精度而言,相比於Hi-C(73.8%),EagleC在兩個ChIA-PET數據集中取得了相當的精度(CTCF,65.5%;和Pol2, 68.2%)(圖4C)。此外,研究者觀察到,在所有10個與WGS數據匹配的HiChIP/ChIA-PET數據集中,EagleC預測的SVs的召回率和準確率都顯著高於Hi-C breakfinder(圖4D-F)。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖4. EagleC可以準確預測HiChIP和ChIA-PET接觸圖上的SVs。圖片來自Sci. Adv.

105例腫瘤標本中SVs的檢測

如果在同一個樣本中有多個數據集可用,將它們的結果結合起來可以形成更全面的SV注釋集。研究者預測了所有樣本中的5620個SVs,每個樣本中的數量從2到410不等(圖5A)。所有樣本數據中,30.9%的預測SVs是短程SVs (<1 Mb),35.7%是長程SVs,33.4%是染色體間易位。

在超級酶尺度上,哺乳動物的基因組被組織成TADs。CTCF結合位點富集的TAD邊界為適當的基因調控提供了一個絕緣的環境。與隨機打亂的SV的預期分佈相比,研究者發現SV的斷點明顯靠近TAD邊界,這與之前的研究結果一致,即DNA拓撲異構酶II beta (TOP2B)介導的DNA雙鏈斷裂在染色質環的錨點富集(圖5C)。總體而言,約10%的SVs發生在TAD邊界之間,37.5%發生在TAD邊界與TAD內區域之間,52.5%發生在TAD內區域之間(圖5D)。此外,研究者發現癌症相關基因的轉錄起始位點(TSSs)在斷點相關的TAD邊界特異富集(圖5E)。這表明基因組重排列破壞TAD邊界,可能是致癌基因失調和腫瘤發生的重要機制。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖5. 105株癌細胞或患者樣本中SVs的泛癌分析。圖片來自Sci. Adv.

為了進一步探索研究者的SV注釋的價值,研究者鑒定了不同樣本中反覆受到短程SV影響的基因。結果發現大部分缺失的基因是腫瘤抑制基因(圖5F),如CDKN2A/2B、WWOX、CHFR和MSH2基因。另一方面,在重複區域內的很多基因都是癌基因(圖5G),如MYC。CD44基因是癌症幹細胞的常見生物標誌物,編碼一種參與腫瘤起始和進展的細胞表面糖蛋白。

EagleC預測單細胞中已知的染色體間易位

為了使EagleC在每個細胞接觸信息有限的情況下適用於scHi-C,研究者將相同的8個癌細胞株和GM12878細胞的接觸圖譜降採樣到可比較的測序深度,並在500 kb分辨率下重新訓練模型。然後,研究者在HAP1和K562中發表的scHi-C數據集上測試了EagleC,這兩種細胞都是慢性髓系白血病細胞系。HAP1細胞中9號染色體和22號染色體為互易位,而K562細胞中9號染色體和22號染色體為非互易位。HAP1數據集包含256個單細胞,每個細胞中位數為18793個接觸,而K562數據集包含337個細胞,每個細胞中位數僅為3974個接觸(圖6A)。值得注意的是,即使使用這些極其稀疏的接觸矩陣,EagleC也能夠預測單細胞中已知的chr9-chr22易位(圖6B-C)。

Sci. Adv. | EagleC:一個可用於全方位結構變異檢測的深度學習框架 - 天天要聞

圖6. EagleC可以準確預測HiChIP和ChIA-PET接觸圖上的SVs。圖片來自Sci. Adv.

為了系統地研究準確預測單個細胞中SVs的接觸數下限,研究者根據測序深度對所有256個HAP1細胞進行了排序,並通過匯聚到99個最深的單個細胞產生了一系列的接觸矩陣(接觸對從148635萬到405萬)(圖6D)。正如預期的那樣,預測的SVs數量隨着細胞數量的增加而減少(圖6E)。

結論總結

本文利用CNNs在圖像識別和集成學習避免過擬合問題的優勢開發的EagleC不僅能預測出唯一的近距離SVs,且與現有方法相比,大大提高了整體預測能力。本文證明了利用Hi-C檢測融合基因的可行性,雖然目前的框架無法達到鹼基對分辨率,但與RNA-seq相比,Hi-C在檢測內含子內融合點方面具有獨特的能力。此外,EagleC可以作為一個通用模型來預測SVs,使用其他基於3C的接觸圖,包括ChIA-PET,HiChIP/PLAC-Seq,capture Hi-C,甚至是scHi-C。

參考文獻

Wang X, Luan Y, Yue F. EagleC: A deep-learning framework for detecting a full range of structural variations from bulk and single-cell contact maps[J]. Science Advances, 2022, 8(24): eabn9215.

中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載

科學分類資訊推薦

研究發現消失的尼羅河支流 或助解開金字塔建造之謎 - 天天要聞

研究發現消失的尼羅河支流 或助解開金字塔建造之謎

新華社北京5月21日電 研究人員日前繪製出尼羅河一條現已乾涸的支流地圖,認為它可能幫助古埃及人建造了31座金字塔,包括著名的吉薩金字塔群。研究成果由最新一期英國《通訊-地球與環境》雜誌刊載。 埃及金字塔最集中的地區是自吉薩市向南至利什特村之間的一片沙漠。那裡距離尼羅河有數十公里遠,但發現了港口遺迹。埃及學家...
2023年重慶長江幹流監測到魚類93種 珍稀特有魚類出現頻率增加 - 天天要聞

2023年重慶長江幹流監測到魚類93種 珍稀特有魚類出現頻率增加

封面新聞記者 李茂佳在國際生物多樣性日來臨之際,5月21日,重慶市生態環境局舉行重慶市生物多樣性保護情況新聞發佈會。2023年,重慶長江幹流監測到魚類93種,較禁捕前增加47種。長江鱘從禁捕前監測到的7尾增加到249尾,珍稀特有魚類出現頻率增加,出現範圍擴大。新聞發佈會現場。重慶市生態環境局黨組成員、副局長陳衛表示...
全球首台!我國量子測量領域取得重要突破 - 天天要聞

全球首台!我國量子測量領域取得重要突破

5月21日,全國首屆量子精密測量賦能產業發展大會,在安徽合肥舉辦。會上,全球首台商用低溫版量子鑽石原子力顯微鏡正式亮相。該顯微鏡由國儀量子技術(合肥)股份有限公司(以下簡稱「國儀量子」)自主研製,這標誌着我國量子精密測量技術的產業化發展,取得重要突破。△低溫版量子鑽石原子力顯微鏡。圖片來源:國儀量子國...
世界首次:科學家成功對 μ 子實行「冷卻」加速,約達光速 4% - 天天要聞

世界首次:科學家成功對 μ 子實行「冷卻」加速,約達光速 4%

IT之家 5 月 21 日消息,日本 J-PARC 研究中心、日本高能加速器研究機構聯合發佈公報,宣布完成了業內首次對 μ 子進行「冷卻」和加速的操作,朝着實現世界首個 μ 子(渺子)加速器邁出了一大步。據介紹,研究團隊在 J-PARC 中心使帶一顆正電荷的正 μ 子減速到幾乎停止(光速的 0.002%)的狀態,並使正 μ 子的方向和速度...
氣象水文部門預測:今年「龍舟水」水情較往年略偏重 - 天天要聞

氣象水文部門預測:今年「龍舟水」水情較往年略偏重

5月20日迎來「小滿」節氣,民諺有雲「小滿小滿,江河漸滿」。進入「小滿」節氣,雨水豐盈,江河的水逐漸增多。根據廣州市水文氣象數據統計,5月20日廣州市降暴雨,其中白雲、花都、增城等區降大暴雨,全市平均日雨量74.0毫米。豆大雨點落在地面,濺起水花。圖/廣州日報新花城記者:吳子良受強降雨影響,5月20日全市江河水位...
值得收藏!《常州市野生鳥類圖冊》發佈 - 天天要聞

值得收藏!《常州市野生鳥類圖冊》發佈

現代快報訊(記者 陸文傑)鳥類是生物多樣性的重要指示類群,是評價生態系統健康狀況的關鍵性指標。隨着生態環境的改善,常州鳥類生境狀況大幅提升,越來越多的野生鳥類翱翔在青山綠水間,野外鳥類記錄不斷刷新,珍稀鳥類頻頻亮相。它們用翅膀為生態環境投票,實名認證了常州生物多樣性工作的豐碩成果。在5·22國際生物多樣...
馬斯克豪言:30年內火星城市崛起,人類新家園即將誕生! - 天天要聞

馬斯克豪言:30年內火星城市崛起,人類新家園即將誕生!

埃隆·馬斯克,這個科技界的狂人,他總是有着讓人震驚的想法和計劃。這不,他又在火星上動起了腦筋。他旗下的SpaceX公司,一直在研究怎麼把人送上火星,還在想方設法要在那上面建個城市。圖片來自網絡馬斯克在社交媒體上可是挺活躍的,他就在那兒說,未來30年,火星上肯定會有人類城市。
研究發現英國 AI 聊天機械人的安全措施容易被繞過 - 天天要聞

研究發現英國 AI 聊天機械人的安全措施容易被繞過

劃重點:- ️  英國政府研究人員發現,防止 AI 聊天機械人發出非法、有毒或露骨回應的保護措施可以被簡單的技術繞過。-   通過測試,研究人員發現五個系統 「極易受到攻擊」,甚至在沒有有針對性地繞過保護措施的情況下,也能產生有害回應。-   安全防護可以通過 「相當簡單」 的攻擊繞過,例如指示系統以 「當然,...