

日前,在2025数据安全发展大会上,“全球医学顶尖科研成果高质量数据集索引(2019–2024)”正式发布。
该数据由东壁科技数据公司联合上海财经大学数字经济学院联合发布。它基于东壁科技数据自主研发的顶级期刊评价体系“东壁指数(Dongbi Index)”,从海量医学文献中精准提取高价值科研数据,旨在为全球医学研究趋势研判、政策制定与产业创新提供权威数据支撑。
医学领域长期存在着数据集质量参差不齐、结构不清、可扩展性差等问题,一定程度上制约了医学数据价值释放。
该数据集索引及报告为国家自然科学基金委专项资助项目。东壁科技数据创始人吴登生介绍,为应对医学研究的多维复杂性,团队整合了15项国家战略规划与行业报告,以及国家自然科学基金委员会与国家卫健委发布的科研指引,创新设计了基础研究、医疗器械、生物医药、人工智能四个一级分类框架、分19个子类,构建了兼具深度与广度的医学知识图谱。
此次发布的“全球医学顶尖科研成果高质量数据集索引(2019—2024)”以《自然》《科学》《美国科学院院刊》为种子,通过文献主题建模初筛医学论文,再借助多轮引文迭代追踪,最终锁定34本医学领域顶尖期刊。这些期刊涵盖肿瘤学、心血管、免疫学等10大学科,80%以上影响因子超过10。
东壁科技数据研究团队从1.5万余篇顶尖论文中提取出约5.3万项多来源核心数据,时间跨度从数天至十余年,数据规模横跨数百至亿级。
基于文献内容,团队还依照多个维度,提炼出数据加工方法的多维应用场景并匹配使用示例,为全球医学研究从数据整合到知识转化提供解决方案。
通过对数据集文献的深度解析,研究团队发现,美国以9719篇核心论文占据绝对主导地位,其后依次为英国、德国和法国,而中国以1518篇位列第五。
研究发现,美国在基础病理机制与临床转化研究上优势明显。但在新兴或高技术含量领域,如脑科学、放射治疗设备、基因疗法、医学影像等领域,中美差距相对较小。
在中国医学数据库的建设上,该报告也提供了多维度的思考和启示。
报告提出,一方面,应构建以多组学、多中心临床试验及流行病学调查为基础的复合型数据库,保障数据的高质量与多样性;另一方面,也应在数据库设计中预置完善的临床干预、长期随访和综合指标体系,鼓励开放式数据共享与跨学科联合分析等,提升数据的挖掘价值与科研转化效率。
此外,还要主动融入并推动多国、多机构间的数据互认与标准统一,建立符合国际惯例的元数据描述规范和数据交换标准,促进国内外资源共享与协同创新。
原标题:《中美医学在新兴技术领域差距较小,这个医学数据集有了新发现》
栏目主编:任荃 题图来源:上观题图
来源:作者:文汇报 许琦敏