原創 奇點糕
肺癌是全球第二大最常見的癌症,也是癌症相關死亡的主要原因[1]。
雖然低劑量計算機斷層掃描(LDCT)等放射學方法,可以將肺癌相關死亡風險降低20%,但有很多因素限制了它的使用[2]。因此,開發一種可靠的非侵入性方法,準確且經濟高效地檢測出早期肺癌,是亟待解決的問題。
近年來,基於細胞遊離DNA(cfDNA)的液體活檢在腫瘤早篩中顯示出優勢,但單一特徵的cfDNA預測敏感性低,利用堆疊集成的方法整合來自全基因組測序(WGS)的cfDNA基因組特徵,並創建高度敏感的模型已在早期結直腸腺癌檢測中初見成效[3],這種方法是否適用於肺癌早篩,目前鮮為人知。
近日,由江蘇省腫瘤醫院(南京醫科大學附屬腫瘤醫院)的許林、尹榮領銜的研究團隊,通過整合cfDNA片段組學特徵,開發了一種準確且經濟的早期肺癌檢測方法,這項研究成果發表在呼吸科頂級期刊《美國呼吸與危重症醫學雜誌》上[4]。
研究人員發現,集成了五個cfDNA特徵和五個機器學習演算法的堆疊集成模型,優於所有基於單個特徵-演算法組合的模型,該集成模型預測早期非小細胞肺癌(NSCLC)的敏感性和特異性在90%以上。
值得一提的是,即使測序深度降至0.5×時,該模型仍可保持較高的敏感性和特異性。江蘇省腫瘤醫院王思煒、孟凡塵和李明為該論文的共同第一作者。
論文首頁截圖
接下來,我們一起來看看這個研究是如何開展的。
研究團隊首先將354名受試者隨機分配到訓練集及驗證集I,訓練集包括113名未治療的NSCLC患者(腺癌ADC:96名;鱗癌SCC:17名;I期:66名;腫瘤大小<1cm:15名)和113名非癌症健康志願者;驗證集I包括81名NSCLC患者(ADC:66;SCC:15;I期:46;腫瘤大小<1cm:16)和47名健康者。訓練集及驗證集I用於構建模型、進行內部驗證。
隨後,他們將另外188名受試者(70名健康志願者,118名未治療ADC)分配到驗證集II,進行外部驗證。此外,他們還設計了獨立驗證隊列,納入了240名來自其他回顧性研究的人群,包括120名健康者和120名未治療的NSCLC患者。
模型的構建與驗證
研究人員對所有受試者進行了血漿樣本採集、cfDNA提取,然後進行WGS文庫構建。他們統一按5×的測序深度進行模型構建和評估,使用原始測序深度(5.28×-27.85×)的WGS數據,或降低測序深度至4×、3×、2×、1×和0.5×的WGS數據,對所選模型進行進一步評估。
他們從WGS數據中提取了五種不同的片段特徵,用於特徵選擇和模型構建。這五種片段特徵包括:拷貝數變異(CNV)、片段大小覆蓋率(FSC)、片段大小分布(FSD)、末端序列(EDM)和斷裂點序列(BPM)。
然後,他們使用每個cfDNA片段組特徵來構建其基礎模型,並使用了五種基礎演算法:廣義線性模型(GLM)、梯度提升機(GBM)、隨機森林、深度學習和XGBoost。
構建堆疊集成模型和確定癌症概率評分的示意圖
研究人員測試了上述五種片段特徵在五個基礎模型中的曲線下面積(AUC),以評估模型的預測性能,結果顯示EDM、BPM、FSC、FSD和CNV特徵,在堆疊集成模型中的AUC值比在單一演算法模型中高。於是,他們建立了一個集成了血漿cfDNA片段組學特徵和五種機器學習演算法的堆疊集成模型,AUC值達0.985。
本研究中的每個癌症或非癌症樣本,均會由演算法生成癌症概率評分,範圍為0到1,模型輸出的分數越高,表示患癌症的概率越高。研究人員發現,癌症患者的癌症概率評分顯著高於健康受試者,而且從I期到IV期癌症患者的評分分布呈上升趨勢。
為了評估堆疊集成模型的性能,研究人員使用驗證集I來確定95%特異性的截斷值(驗證集I中的健康者46名,因此計算出的特異性為44/46=95.7%,相應的癌症評分截斷值為0.66),然後將截斷值應用於驗證集II和獨立驗證隊列以進行外部評估。
他們發現在驗證集I和驗證集II中,AUC值都比較高,分別為0.984和0.987。基於驗證集I中95.7%的特異性,應用0.66作為癌症評分截斷值,驗證集II的特異性為98.6%,由此產生的驗證集I、驗證集II的敏感性分別為91.4%、84.7%。
驗證隊列中預測模型的開發和評估
為了進一步評估堆疊集成模型的普適性,研究人員在獨立驗證隊列中進行了測試,結果發現,預測模型在獨立驗證隊列中AUC值達0.974,應用0.66作為癌症評分截斷值,預測模型能夠很好地區分癌症和非癌症樣本,敏感性和特異性分別為92.5%、94.2%。而且,獨立驗證隊列中,所有患者的癌症評分也呈現出從I期到IV期的上升趨勢。
他們還評估了該模型在不同WGS測序深度下的穩定性和穩健性,發現該模型在使用原始或5×測序深度的WGS數據時保持穩定,即使測序深度降低至4×、3×、2×、1×和0.5×後,它們的AUC值在驗證集I(≥0.966)和驗證集II(≥0.971)中仍然很高,提示穩健性好。而且,即使具有最低的變異等位基因頻率(VAF)(0.05%)和測序深度(0.5×),該模型在識別癌症方面仍有75.0%的敏感性。
最後,他們使用驗證集進一步評估了該模型在不同肺癌亞組中的預測性能,結果顯示,該模型能可靠地區分SCC和ADC,敏感性分別為93.3%和87.0%,而且可以用於檢測I期(敏感性83.2%)或腫瘤<1cm(敏感性85.0%)等早期病理特徵。
預測模型在驗證集I、II的不同肺癌患者亞組及其組合中的診斷敏感性
總之,該研究建立了一個集成五個cfDNA片段組學特徵的堆疊集成機器學習模型,可區分早期NSCLC和非癌症受試者,敏感性高,穩定性和穩健性高,有助於NSCLC的早期檢測。