“人工智能医生” 已经近在眼前。
站长之家(chinaz.com)4 月 9 日 消息:一份报告显示,人工智能(ai)的实力在医疗诊断领域也超越了人类。据说,openai 的最新人工智能模型 gpt-4 比人类医生更出色。当地时间 8 日,美国斯坦福大学以人为本人工智能研究所(stanford institute for human-centered ai)发布了《2025 年人工智能指数报告(artificial intelligence index report 2025)》。根据该报告显示,在基于临床案例的诊断测试中,gpt-4 的准确率比人类医生高出了 16%。报告称:“总体而言,gpt-4 单独诊断的性能最高,结果也很稳定。” 接着又指出:“而人类医生单独诊断的性能较低”、“不过,当人类医生与人工智能协作时,根据使用方式的不同,成果差异很大” 。
《2025 年人工智能指数报告》中进行的人工智能与人类医生的诊断测试实验,是以向 gpt-4 和美国的 50 名临床医生(专科医生 26 名、普通医生 24 名)提供 6 名诊断难度较大患者的案例的方式进行的。之后再将 “gpt-4 单独诊断”、 “gpt-4 协作的人类医生”、以及“人类医生单独诊断” 的诊断结果进行比较。第一个实验是 “gpt-4 与人类医生对比”,第二个实验是 “与 gpt-4 协作的人类医生与人类医生对比”,以此来考察诊断的准确性。
结果显示,gpt-4 诊断组的准确率中位数(92%)比仅由人类医生诊断的组(76%)高出 16 个百分点。中位数是指将数据排列后位于正中间的数值。此外,与 gpt-4 协作的医生组的中位数(76%)仅比人类医生单独诊断的组(74%)高出 2 个百分点,这一差异也并不显著。关于准确率,由两名未直接参与实验的内科专科医生按照预先设定的标准进行了独立评估。他们在不知道每个诊断是谁做出的情况下进行了打分。
这份报告的评估意义在于,它展示了ai在医疗现场的地位正在发生变化 —— ai 不仅被广泛应用于机器人手术、医学数据分析,还包括基于人工智能的癌症筛查解决方案等诸多领域。但此前它一直停留在辅助医生判断的领域。
作为全球最具公信力的人工智能白皮书之一,《人工智能指数报告》得出了“像 gpt-4 这样的生成式 ai 模型比医生诊断得更好”的分析结果,同时也预测:在不久的将来,在医院里看到 ai 医生将成为稀松平常之事!
报告评价道:“这次实验结果总体上表明,gpt-4 诊断的性能最高、且具有一致性”,“即使 ai 与人类医生协作,根据医生个人的判断方式和运用能力的不同,结果也会有所不同”。接着还指出:“最近,在癌症检测和重症患者识别等领域,也有研究表明人工智能的表现优于医疗工作者”、“人工智能的应用范围正在从单纯的诊断扩展到更复杂的临床判断领域” 。
与此同时,在衡量 gpt-4 临床知识性能的代表性标准 “medqa” 基准测试中,gpt-4 去年的准确率达到了 96.0%。与 2022 年的 67.6% 相比,这一数值大幅提高了 28.4 个百分点。medqa 是基于美国医生国家考试水平的医学问题而构建的测试,用于评估人工智能的临床知识水平。
报告还补充道:“有研究结果表明,人工智能与医生的协作能够产生最佳结果,因此这一领域将成为未来重要的研究课题”、“但人工智能系统本身也具有一定的潜在风险,例如产生与事实不符信息的‘ai幻觉’问题、或不可预测的错误等,人们对其可靠性和安全性仍存疑,因此需要制定考虑到这些风险因素的政策应对措施” 。