AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略

2022年12月23日21:16:15 科学 1526

原创 奇点糕

肺癌是全球第二大最常见的癌症,也是癌症相关死亡的主要原因[1]。


虽然低剂量计算机断层扫描(LDCT)等放射学方法,可以将肺癌相关死亡风险降低20%,但有很多因素限制了它的使用[2]。因此,开发一种可靠的非侵入性方法,准确且经济高效地检测出早期肺癌,是亟待解决的问题。


近年来,基于细胞游离DNA(cfDNA)的液体活检在肿瘤早筛中显示出优势,但单一特征的cfDNA预测敏感性低,利用堆叠集成的方法整合来自全基因组测序(WGS)的cfDNA基因组特征,并创建高度敏感的模型已在早期结直肠腺癌检测中初见成效[3],这种方法是否适用于肺癌早筛,目前鲜为人知。


近日,由江苏省肿瘤医院(南京医科大学附属肿瘤医院)的许林、尹荣领衔的研究团队,通过整合cfDNA片段组学特征,开发了一种准确且经济的早期肺癌检测方法,这项研究成果发表在呼吸科顶级期刊《美国呼吸与危重症医学杂志》上[4]。


研究人员发现,集成了五个cfDNA特征和五个机器学习算法的堆叠集成模型,优于所有基于单个特征-算法组合的模型,该集成模型预测早期非小细胞肺癌(NSCLC)的敏感性和特异性在90%以上。


值得一提的是,即使测序深度降至0.5×时,该模型仍可保持较高的敏感性和特异性。江苏省肿瘤医院王思炜、孟凡尘和李明为该论文的共同第一作者。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

论文首页截图


接下来,我们一起来看看这个研究是如何开展的。


研究团队首先将354名受试者随机分配到训练集及验证集I,训练集包括113名未治疗的NSCLC患者(腺癌ADC:96名;鳞癌SCC:17名;I期:66名;肿瘤大小<1cm:15名)和113名非癌症健康志愿者;验证集I包括81名NSCLC患者(ADC:66;SCC:15;I期:46;肿瘤大小<1cm:16)和47名健康者。训练集及验证集I用于构建模型、进行内部验证。


随后,他们将另外188名受试者(70名健康志愿者,118名未治疗ADC)分配到验证集II,进行外部验证。此外,他们还设计了独立验证队列,纳入了240名来自其他回顾性研究的人群,包括120名健康者和120名未治疗的NSCLC患者。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

模型的构建与验证


研究人员对所有受试者进行了血浆样本采集、cfDNA提取,然后进行WGS文库构建。他们统一按5×的测序深度进行模型构建和评估,使用原始测序深度(5.28×-27.85×)的WGS数据,或降低测序深度至4×、3×、2×、1×和0.5×的WGS数据,对所选模型进行进一步评估。


他们从WGS数据中提取了五种不同的片段特征,用于特征选择和模型构建。这五种片段特征包括:拷贝数变异CNV)、片段大小覆盖率(FSC)、片段大小分布(FSD)、末端序列(EDM)和断裂点序列(BPM)


然后,他们使用每个cfDNA片段组特征来构建其基础模型,并使用了五种基础算法:广义线性模型(GLM)、梯度提升机(GBM)、随机森林、深度学习和XGBoost。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

构建堆叠集成模型和确定癌症概率评分的示意图


研究人员测试了上述五种片段特征在五个基础模型中的曲线下面积(AUC),以评估模型的预测性能,结果显示EDM、BPM、FSC、FSD和CNV特征,在堆叠集成模型中的AUC值比在单一算法模型中高。于是,他们建立了一个集成了血浆cfDNA片段组学特征和五种机器学习算法的堆叠集成模型,AUC值达0.985


本研究中的每个癌症或非癌症样本,均会由算法生成癌症概率评分,范围为0到1,模型输出的分数越高,表示患癌症的概率越高。研究人员发现,癌症患者的癌症概率评分显著高于健康受试者,而且从I期到IV期癌症患者的评分分布呈上升趋势。


为了评估堆叠集成模型的性能,研究人员使用验证集I来确定95%特异性的截断值(验证集I中的健康者46名,因此计算出的特异性为44/46=95.7%,相应的癌症评分截断值为0.66),然后将截断值应用于验证集II和独立验证队列以进行外部评估。


他们发现在验证集I和验证集II中,AUC值都比较高,分别为0.984和0.987。基于验证集I中95.7%的特异性,应用0.66作为癌症评分截断值,验证集II的特异性为98.6%,由此产生的验证集I、验证集II的敏感性分别为91.4%、84.7%


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

验证队列中预测模型的开发和评估


为了进一步评估堆叠集成模型的普适性,研究人员在独立验证队列中进行了测试,结果发现,预测模型在独立验证队列中AUC值达0.974,应用0.66作为癌症评分截断值,预测模型能够很好地区分癌症和非癌症样本,敏感性和特异性分别为92.5%、94.2%。而且,独立验证队列中,所有患者的癌症评分也呈现出从I期到IV期的上升趋势。


他们还评估了该模型在不同WGS测序深度下的稳定性和稳健性,发现该模型在使用原始或5×测序深度的WGS数据时保持稳定,即使测序深度降低至4×、3×、2×、1×和0.5×后,它们的AUC值在验证集I(≥0.966)和验证集II(≥0.971)中仍然很高,提示稳健性好。而且,即使具有最低的变异等位基因频率(VAF)(0.05%)和测序深度(0.5×),该模型在识别癌症方面仍有75.0%的敏感性。


最后,他们使用验证集进一步评估了该模型在不同肺癌亚组中的预测性能,结果显示,该模型能可靠地区分SCC和ADC,敏感性分别为93.3%和87.0%,而且可以用于检测I期(敏感性83.2%)或肿瘤<1cm(敏感性85.0%)等早期病理特征。


AJRCCM:敏感性超90%!江苏省肿瘤医院团队发现肺癌早筛新策略 - 天天要闻

预测模型在验证集I、II的不同肺癌患者亚组及其组合中的诊断敏感性


总之,该研究建立了一个集成五个cfDNA片段组学特征的堆叠集成机器学习模型,可区分早期NSCLC和非癌症受试者,敏感性高,稳定性和稳健性高,有助于NSCLC的早期检测。

科学分类资讯推荐

【公共数据库挖掘】牙线竟含“永久化学物”?6千人大数据揭秘真相!更揭示科研新捷径 - 天天要闻

【公共数据库挖掘】牙线竟含“永久化学物”?6千人大数据揭秘真相!更揭示科研新捷径

利用公共数据库发现牙线使用与全氟烷基和多氟烷基物质(PFAS)的复杂关系,看懂“挖数据”发文的黄金机会!关心健康的你,可能听说过PFAS,一类被称为“永久化学物”的有害物质,因其在环境和人体中极难降解而备受关注。它们存在于不粘锅、防水服、食品包装等众多产品中。那么,我们每天使用的牙线,是否也可能成为PFAS的暴...
【野聊聊气象】“烧烤”or 蒸煮” - 天天要闻

【野聊聊气象】“烧烤”or 蒸煮”

【来源:黄山交通旅游广播】各位好,我是小野。昨天,我们进入了夏季的第五个节气——小暑。此时,暑气正浓、高温频发,南北方有的“蒸煮”有的“烧烤”,咱们黄山就好了,二者皆有。继昨天“烧烤”之后, 受“丹娜丝”影响,周四之前我市将有一次风雨过程,
其实,《流浪地球》根本不需要“韩子昂” - 天天要闻

其实,《流浪地球》根本不需要“韩子昂”

在电影《流浪地球》里,韩子昂作为重型卡车的高级驾驶员,执行着运送发动机推动燃料火石的任务。然而,《流浪地球》还是落后现实了。在内蒙古伊敏露天煤矿,重型卡车根本不需要韩子昂。几百辆由中国华能、徐工集团、国家电网、华为联合出品的全国首型取消驾驶室的纯电无人矿卡——“华能睿驰”矿卡正在伊敏煤矿同时“打工”...
中国科学院院士、细胞生物学家孙大业逝世,享年88岁 - 天天要闻

中国科学院院士、细胞生物学家孙大业逝世,享年88岁

讣告 | 沉痛悼念中国科学院院士孙大业先生中国科学院院士、细胞生物学家、无党派代表人士、河北师范大学生命科学学院教授孙大业先生,因病医治无效,于2025年7月7日18时14分在石家庄逝世,享年88岁。孙大业先生,1937年7月生于浙江杭州,
今日小暑丨向夏生长,不负骄阳 - 天天要闻

今日小暑丨向夏生长,不负骄阳

倏忽温风至因循小暑来今天我们迎来夏天的第五个节气小暑标志着盛夏的登场俗话说:“小暑过,每日热三分”小暑节气期间正好赶上入伏我国大部分地区开启“蒸煮模式”这一时节,暑气蒸腾全国从南到北,正是荷花竞相盛放之时偶有清风拂过,满塘荷香给炎热的夏季添
享年94岁!哈工大教授严家騄逝世,讣告:是我国工程热物理学科的重大损失 - 天天要闻

享年94岁!哈工大教授严家騄逝世,讣告:是我国工程热物理学科的重大损失

讣告中国共产党党员、哈尔滨工业大学热工专业创始人之一、哈尔滨工业大学能源科学与工程学院教授严家騄同志,因病医治无效,于2025年7月7日在哈尔滨逝世,享年94岁。严家騄同志1931年1月出生于江苏南通,1953年毕业于上海交通大学,同年进入哈工大读研,1985年任教授。历任哈工大热工教研室主任、工程热物理研究室主任。曾...
“丹娜丝”逐渐向浙江台州至福建宁德一带沿海靠近 福建北部、浙江南部近岸海域将出现 2.5 到 3.5 米的大浪 - 天天要闻

“丹娜丝”逐渐向浙江台州至福建宁德一带沿海靠近 福建北部、浙江南部近岸海域将出现 2.5 到 3.5 米的大浪

今年第 4 号台风 “丹娜丝”备受关注。最新消息显示,截至 7 月 7 日 17时,“丹娜丝” 为热带风暴级,台风中心位于距离浙江省温岭市偏南方向约 190公里的东海西南部海面上,中心附近最大风力有 9 级(23 米 / 秒,约 83 公里 / 小时)。“丹娜丝”将先以每小时10公里左右的速度向东北方向移动,8日早晨起逐渐转向偏西方向...