AJRCCM：敏感性超90%！江蘇省腫瘤醫院團隊發現肺癌早篩新策略

2022年12月23日21:16:15 科學 1526

原創奇點糕

肺癌是全球第二大最常見的癌症，也是癌症相關死亡的主要原因[1]。

雖然低劑量計算機斷層掃描（LDCT）等放射學方法，可以將肺癌相關死亡風險降低20%，但有很多因素限制了它的使用[2]。因此，開發一種可靠的非侵入性方法，準確且經濟高效地檢測出早期肺癌，是亟待解決的問題。

近年來，基於細胞遊離DNA（cfDNA）的液體活檢在腫瘤早篩中顯示出優勢，但單一特徵的cfDNA預測敏感性低，利用堆疊集成的方法整合來自全基因組測序（WGS）的cfDNA基因組特徵，並創建高度敏感的模型已在早期結直腸腺癌檢測中初見成效[3]，這種方法是否適用於肺癌早篩，目前鮮為人知。

近日，由江蘇省腫瘤醫院（南京醫科大學附屬腫瘤醫院）的許林、尹榮領銜的研究團隊，通過整合cfDNA片段組學特徵，開發了一種準確且經濟的早期肺癌檢測方法，這項研究成果發表在呼吸科頂級期刊《美國呼吸與危重症醫學雜誌》上[4]。

研究人員發現，集成了五個cfDNA特徵和五個機器學習演算法的堆疊集成模型，優於所有基於單個特徵-演算法組合的模型，該集成模型預測早期非小細胞肺癌（NSCLC）的敏感性和特異性在90%以上。

值得一提的是，即使測序深度降至0.5×時，該模型仍可保持較高的敏感性和特異性。江蘇省腫瘤醫院王思煒、孟凡塵和李明為該論文的共同第一作者。

論文首頁截圖

接下來，我們一起來看看這個研究是如何開展的。

研究團隊首先將354名受試者隨機分配到訓練集及驗證集I，訓練集包括113名未治療的NSCLC患者（腺癌ADC：96名；鱗癌SCC：17名；I期：66名；腫瘤大小<1cm：15名）和113名非癌症健康志願者；驗證集I包括81名NSCLC患者（ADC：66；SCC：15；I期：46；腫瘤大小<1cm：16）和47名健康者。訓練集及驗證集I用於構建模型、進行內部驗證。

隨後，他們將另外188名受試者（70名健康志願者，118名未治療ADC）分配到驗證集II，進行外部驗證。此外，他們還設計了獨立驗證隊列，納入了240名來自其他回顧性研究的人群，包括120名健康者和120名未治療的NSCLC患者。

模型的構建與驗證

研究人員對所有受試者進行了血漿樣本採集、cfDNA提取，然後進行WGS文庫構建。他們統一按5×的測序深度進行模型構建和評估，使用原始測序深度（5.28×-27.85×）的WGS數據，或降低測序深度至4×、3×、2×、1×和0.5×的WGS數據，對所選模型進行進一步評估。

他們從WGS數據中提取了五種不同的片段特徵，用於特徵選擇和模型構建。這五種片段特徵包括：拷貝數變異（CNV）、片段大小覆蓋率（FSC）、片段大小分布（FSD）、末端序列（EDM）和斷裂點序列（BPM）。

然後，他們使用每個cfDNA片段組特徵來構建其基礎模型，並使用了五種基礎演算法：廣義線性模型（GLM）、梯度提升機（GBM）、隨機森林、深度學習和XGBoost。

構建堆疊集成模型和確定癌症概率評分的示意圖

研究人員測試了上述五種片段特徵在五個基礎模型中的曲線下面積（AUC），以評估模型的預測性能，結果顯示EDM、BPM、FSC、FSD和CNV特徵，在堆疊集成模型中的AUC值比在單一演算法模型中高。於是，他們建立了一個集成了血漿cfDNA片段組學特徵和五種機器學習演算法的堆疊集成模型，AUC值達0.985。

本研究中的每個癌症或非癌症樣本，均會由演算法生成癌症概率評分，範圍為0到1，模型輸出的分數越高，表示患癌症的概率越高。研究人員發現，癌症患者的癌症概率評分顯著高於健康受試者，而且從I期到IV期癌症患者的評分分布呈上升趨勢。

為了評估堆疊集成模型的性能，研究人員使用驗證集I來確定95%特異性的截斷值（驗證集I中的健康者46名，因此計算出的特異性為44/46=95.7%，相應的癌症評分截斷值為0.66），然後將截斷值應用於驗證集II和獨立驗證隊列以進行外部評估。

他們發現在驗證集I和驗證集II中，AUC值都比較高，分別為0.984和0.987。基於驗證集I中95.7%的特異性，應用0.66作為癌症評分截斷值，驗證集II的特異性為98.6%，由此產生的驗證集I、驗證集II的敏感性分別為91.4%、84.7%。

驗證隊列中預測模型的開發和評估

為了進一步評估堆疊集成模型的普適性，研究人員在獨立驗證隊列中進行了測試，結果發現，預測模型在獨立驗證隊列中AUC值達0.974，應用0.66作為癌症評分截斷值，預測模型能夠很好地區分癌症和非癌症樣本，敏感性和特異性分別為92.5%、94.2%。而且，獨立驗證隊列中，所有患者的癌症評分也呈現出從I期到IV期的上升趨勢。

他們還評估了該模型在不同WGS測序深度下的穩定性和穩健性，發現該模型在使用原始或5×測序深度的WGS數據時保持穩定，即使測序深度降低至4×、3×、2×、1×和0.5×後，它們的AUC值在驗證集I（≥0.966）和驗證集II（≥0.971）中仍然很高，提示穩健性好。而且，即使具有最低的變異等位基因頻率（VAF）（0.05%）和測序深度（0.5×），該模型在識別癌症方面仍有75.0%的敏感性。

最後，他們使用驗證集進一步評估了該模型在不同肺癌亞組中的預測性能，結果顯示，該模型能可靠地區分SCC和ADC，敏感性分別為93.3%和87.0%，而且可以用於檢測I期（敏感性83.2%）或腫瘤＜1cm（敏感性85.0%）等早期病理特徵。