

日前,在2025數據安全發展大會上,“全球醫學頂尖科研成果高質量數據集索引(2019–2024)”正式發布。
該數據由東壁科技數據公司聯合上海財經大學數字經濟學院聯合發布。它基於東壁科技數據自主研發的頂級期刊評價體系“東壁指數(Dongbi Index)”,從海量醫學文獻中精準提取高價值科研數據,旨在為全球醫學研究趨勢研判、政策制定與產業創新提供權威數據支撐。
醫學領域長期存在着數據集質量參差不齊、結構不清、可擴展性差等問題,一定程度上制約了醫學數據價值釋放。
該數據集索引及報告為國家自然科學基金委專項資助項目。東壁科技數據創始人吳登生介紹,為應對醫學研究的多維複雜性,團隊整合了15項國家戰略規劃與行業報告,以及國家自然科學基金委員會與國家衛健委發布的科研指引,創新設計了基礎研究、醫療器械、生物醫藥、人工智能四個一級分類框架、分19個子類,構建了兼具深度與廣度的醫學知識圖譜。
此次發布的“全球醫學頂尖科研成果高質量數據集索引(2019—2024)”以《自然》《科學》《美國科學院院刊》為種子,通過文獻主題建模初篩醫學論文,再藉助多輪引文迭代追蹤,最終鎖定34本醫學領域頂尖期刊。這些期刊涵蓋腫瘤學、心血管、免疫學等10大學科,80%以上影響因子超過10。
東壁科技數據研究團隊從1.5萬餘篇頂尖論文中提取出約5.3萬項多來源核心數據,時間跨度從數天至十餘年,數據規模橫跨數百至億級。
基於文獻內容,團隊還依照多個維度,提煉出數據加工方法的多維應用場景並匹配使用示例,為全球醫學研究從數據整合到知識轉化提供解決方案。
通過對數據集文獻的深度解析,研究團隊發現,美國以9719篇核心論文佔據絕對主導地位,其後依次為英國、德國和法國,而中國以1518篇位列第五。
研究發現,美國在基礎病理機制與臨床轉化研究上優勢明顯。但在新興或高技術含量領域,如腦科學、放射治療設備、基因療法、醫學影像等領域,中美差距相對較小。
在中國醫學數據庫的建設上,該報告也提供了多維度的思考和啟示。
報告提出,一方面,應構建以多組學、多中心臨床試驗及流行病學調查為基礎的複合型數據庫,保障數據的高質量與多樣性;另一方面,也應在數據庫設計中預置完善的臨床干預、長期隨訪和綜合指標體系,鼓勵開放式數據共享與跨學科聯合分析等,提升數據的挖掘價值與科研轉化效率。
此外,還要主動融入並推動多國、多機構間的數據互認與標準統一,建立符合國際慣例的元數據描述規範和數據交換標準,促進國內外資源共享與協同創新。
原標題:《中美醫學在新興技術領域差距較小,這個醫學數據集有了新發現》
欄目主編:任荃 題圖來源:上觀題圖
來源:作者:文匯報 許琦敏