AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略

2022年12月23日21:16:15 科学 1526

原创 奇点糕

肺癌是全球第二大最常见的癌症,也是癌症相关死亡的主要原因[1]。


虽然低剂量计算机断层扫描(LDCT)等放射学方法,可以将肺癌相关死亡风险降低20%,但有很多因素限制了它的使用[2]。因此,开发一种可靠的非侵入性方法,准确且经济高效地检测出早期肺癌,是亟待解决的问题。


近年来,基于细胞游离DNA(cfDNA)的液体活检在肿瘤早筛中显示出优势,但单一特征的cfDNA预测敏感性低,利用堆叠集成的方法整合来自全基因组测序(WGS)的cfDNA基因组特征,并创建高度敏感的模型已在早期结直肠腺癌检测中初见成效[3],这种方法是否适用于肺癌早筛,目前鲜为人知。


近日,由江苏省肿瘤医院(南京医科大学附属肿瘤医院)的许林、尹荣领衔的研究团队,通过整合cfDNA片段组学特征,开发了一种准确且经济的早期肺癌检测方法,这项研究成果发表在呼吸科顶级期刊《美国呼吸与危重症医学杂志》上[4]。


研究人员发现,集成了五个cfDNA特征和五个机器学习算法的堆叠集成模型,优于所有基于单个特征-算法组合的模型,该集成模型预测早期非小细胞肺癌(NSCLC)的敏感性和特异性在90%以上。


值得一提的是,即使测序深度降至0.5×时,该模型仍可保持较高的敏感性和特异性。江苏省肿瘤医院王思炜、孟凡尘和李明为该论文的共同第一作者。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

论文首页截图


接下来,我们一起来看看这个研究是如何开展的。


研究团队首先将354名受试者随机分配到训练集及验证集I,训练集包括113名未治疗的NSCLC患者(腺癌ADC:96名;鳞癌SCC:17名;I期:66名;肿瘤大小<1cm:15名)和113名非癌症健康志愿者;验证集I包括81名NSCLC患者(ADC:66;SCC:15;I期:46;肿瘤大小<1cm:16)和47名健康者。训练集及验证集I用于构建模型、进行内部验证。


随后,他们将另外188名受试者(70名健康志愿者,118名未治疗ADC)分配到验证集II,进行外部验证。此外,他们还设计了独立验证队列,纳入了240名来自其他回顾性研究的人群,包括120名健康者和120名未治疗的NSCLC患者。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

模型的构建与验证


研究人员对所有受试者进行了血浆样本采集、cfDNA提取,然后进行WGS文库构建。他们统一按5×的测序深度进行模型构建和评估,使用原始测序深度(5.28×-27.85×)的WGS数据,或降低测序深度至4×、3×、2×、1×和0.5×的WGS数据,对所选模型进行进一步评估。


他们从WGS数据中提取了五种不同的片段特征,用于特征选择和模型构建。这五种片段特征包括:拷贝数变异CNV)、片段大小覆盖率(FSC)、片段大小分布(FSD)、末端序列(EDM)和断裂点序列(BPM)


然后,他们使用每个cfDNA片段组特征来构建其基础模型,并使用了五种基础算法:广义线性模型(GLM)、梯度提升机(GBM)、随机森林、深度学习和XGBoost。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

构建堆叠集成模型和确定癌症概率评分的示意图


研究人员测试了上述五种片段特征在五个基础模型中的曲线下面积(AUC),以评估模型的预测性能,结果显示EDM、BPM、FSC、FSD和CNV特征,在堆叠集成模型中的AUC值比在单一算法模型中高。于是,他们建立了一个集成了血浆cfDNA片段组学特征和五种机器学习算法的堆叠集成模型,AUC值达0.985


本研究中的每个癌症或非癌症样本,均会由算法生成癌症概率评分,范围为0到1,模型输出的分数越高,表示患癌症的概率越高。研究人员发现,癌症患者的癌症概率评分显著高于健康受试者,而且从I期到IV期癌症患者的评分分布呈上升趋势。


为了评估堆叠集成模型的性能,研究人员使用验证集I来确定95%特异性的截断值(验证集I中的健康者46名,因此计算出的特异性为44/46=95.7%,相应的癌症评分截断值为0.66),然后将截断值应用于验证集II和独立验证队列以进行外部评估。


他们发现在验证集I和验证集II中,AUC值都比较高,分别为0.984和0.987。基于验证集I中95.7%的特异性,应用0.66作为癌症评分截断值,验证集II的特异性为98.6%,由此产生的验证集I、验证集II的敏感性分别为91.4%、84.7%


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

验证队列中预测模型的开发和评估


为了进一步评估堆叠集成模型的普适性,研究人员在独立验证队列中进行了测试,结果发现,预测模型在独立验证队列中AUC值达0.974,应用0.66作为癌症评分截断值,预测模型能够很好地区分癌症和非癌症样本,敏感性和特异性分别为92.5%、94.2%。而且,独立验证队列中,所有患者的癌症评分也呈现出从I期到IV期的上升趋势。


他们还评估了该模型在不同WGS测序深度下的稳定性和稳健性,发现该模型在使用原始或5×测序深度的WGS数据时保持稳定,即使测序深度降低至4×、3×、2×、1×和0.5×后,它们的AUC值在验证集I(≥0.966)和验证集II(≥0.971)中仍然很高,提示稳健性好。而且,即使具有最低的变异等位基因频率(VAF)(0.05%)和测序深度(0.5×),该模型在识别癌症方面仍有75.0%的敏感性。


最后,他们使用验证集进一步评估了该模型在不同肺癌亚组中的预测性能,结果显示,该模型能可靠地区分SCC和ADC,敏感性分别为93.3%和87.0%,而且可以用于检测I期(敏感性83.2%)或肿瘤<1cm(敏感性85.0%)等早期病理特征。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

预测模型在验证集I、II的不同肺癌患者亚组及其组合中的诊断敏感性


总之,该研究建立了一个集成五个cfDNA片段组学特征的堆叠集成机器学习模型,可区分早期NSCLC和非癌症受试者,敏感性高,稳定性和稳健性高,有助于NSCLC的早期检测。

科学分类资讯推荐

今日小暑丨向夏生长,不负骄阳 - 天天要闻

今日小暑丨向夏生长,不负骄阳

倏忽温风至因循小暑来今天我们迎来夏天的第五个节气小暑标志着盛夏的登场俗话说:“小暑过,每日热三分”小暑节气期间正好赶上入伏我国大部分地区开启“蒸煮模式”这一时节,暑气蒸腾全国从南到北,正是荷花竞相盛放之时偶有清风拂过,满塘荷香给炎热的夏季添
享年94岁!哈工大教授严家騄逝世,讣告:是我国工程热物理学科的重大损失 - 天天要闻

享年94岁!哈工大教授严家騄逝世,讣告:是我国工程热物理学科的重大损失

讣告中国共产党党员、哈尔滨工业大学热工专业创始人之一、哈尔滨工业大学能源科学与工程学院教授严家騄同志,因病医治无效,于2025年7月7日在哈尔滨逝世,享年94岁。严家騄同志1931年1月出生于江苏南通,1953年毕业于上海交通大学,同年进入哈工大读研,1985年任教授。历任哈工大热工教研室主任、工程热物理研究室主任。曾...
“丹娜丝”逐渐向浙江台州至福建宁德一带沿海靠近 福建北部、浙江南部近岸海域将出现 2.5 到 3.5 米的大浪 - 天天要闻

“丹娜丝”逐渐向浙江台州至福建宁德一带沿海靠近 福建北部、浙江南部近岸海域将出现 2.5 到 3.5 米的大浪

今年第 4 号台风 “丹娜丝”备受关注。最新消息显示,截至 7 月 7 日 17时,“丹娜丝” 为热带风暴级,台风中心位于距离浙江省温岭市偏南方向约 190公里的东海西南部海面上,中心附近最大风力有 9 级(23 米 / 秒,约 83 公里 / 小时)。“丹娜丝”将先以每小时10公里左右的速度向东北方向移动,8日早晨起逐渐转向偏西方向...
相比AI,我们更期待人类的回复;生活方式工业化与炎症性衰老相关?埃及祖先的新线索 | 一周论文新鲜读 - 天天要闻

相比AI,我们更期待人类的回复;生活方式工业化与炎症性衰老相关?埃及祖先的新线索 | 一周论文新鲜读

关注+星标,好搭档不错过7.7本周值得读来自《自然》旗下期刊的新近发表,我们为您精选呈现。1. 将AI回复标记为人类回复能增强同理心2. 并非所有人群的衰老都与慢性炎症相关3. 古DNA揭示埃及祖先4. 拟态是否成功取决于观察者的视角心理学 | 将AI回复标记为人类回复能增强同理心Comparing the value of perceived human
全新影响因子!科研人必备《期刊手册》 - 天天要闻

全新影响因子!科研人必备《期刊手册》

开放科学(Open Science)是透明、值得信赖、且可供所有人使用、重复使用并借鉴的科学,它能带来更快、更可持续的科学发展以及更为广泛的益处,而开放获取(Open Access)是这一切的基础。以OA形式发表研究,也能为研究人员和作者带来影响力和可见度等诸多益处: 金色OA具有更大程度的引用优势,更多的使用量和更广的影响范...