谷歌医疗大模型登Nature:准确率与人类医生“相差无几”

2023年07月13日17:23:03 科技 1357

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

能为患者答疑解惑的谷歌医疗大模型(Med-PaLM),它的详细测评数据终于披露了!

现在,这篇论文已经登上了Nature,来看看里面的具体细节吧。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

团队首先研制了Flan-PaLM,并在此基础之上,通过提示策略等方式调整得到了成品Med-PaLM。

前者挑战了美国医学执照考试(USMLE),取得了67.6%的成绩,比此前最好的模型提高了17%。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

Med-PaLM相比于Flan-PaLM,在实际问题上的表现有显著提升,而后者则显示出很大不足。

经过专业临床医生评判,Med-PaLM对实际问题的回答准确率与真人相差无几

除了Med-PaLM模型,研究团队还推出了自建医疗模型测评数据集。

团队成员Jason Wei兴奋地在社交媒体表示,自己89岁的奶奶经常问他有没有发Science或Nature,现在终于可以回答是了。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

多套测试数据共同认证

研究团队一共使用了七套测试数据集,从多个角度对Med-PaLM的表现进行了测评。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

首先就是准确性

Med-PaLM相比于其前体Flan-PaLM的主要改进不在于此,故这一步使用后者作为测试对象。

这部分一共使用了多个数据集,包括由USMLE题目构成的MedQA。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

结果Flan-PaLM在其中两个数据集上的表现较此前的最佳产品均有显著提升。

而针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%。

更为专业的数据集MMLU中包含来自多个临床知识、医学和生物学相关主题的多项选择题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等方面。

结果Flan-PaLM的准确度超越了所有的已知模型。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

前面的测评主要是针对模型的理论能力,接下来就要进入实战了。

这个过程中Med-PaLM本体和前体Flan-PaLM都是测试的对象。

研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。

其中的HealthSearchQA是谷歌自建的,包含了3000多个问题。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

这些问题既包括学术问题,也包括患者在就医时可能会向医生提出的疑问。

模型的表现则由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

但和真人相比,Med-PaLM输出的错误或不准确信息还是比较高的,在信息缺失方面差距则小一些。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

不过错误的信息不一定会真的带来伤害,经过专家评估,Med-PaLM造成伤害的可能性与严重性和人类相比并不大。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

甚至出现偏见的概率比人类还要低。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

而从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

而作为一款面向不特定人群的语言模型,获得专业人士的认可是不够的,因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。

评价的标准有两条——“是不是所答所问”和“有没有帮助”。

结果在答案匹配度上,Med-PaLM和真人差了1.5%。

而对于“有没有帮助”这个问题,80.3%认为Med-PaLM是“有用”的。

这个数字和真人差距不小,但如果分别加上认为“比较有用”的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

从以上测试结果可以看出,Med-PaLM和真人之间还存在一定的差距,但已经是目前最好的医疗大模型。

论文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

罗茨风机与磁悬浮风优缺点 - 天天要闻

罗茨风机与磁悬浮风优缺点

罗茨风机与磁悬浮风机的优缺点在现代工业中,风机作为重要的气体输送设备,广泛应用于各类生产与工程中。不同类型的风机各具特点,其中罗茨风机和磁悬浮风机是两种常见的风机类型。本文将对这两种风机的优缺点进行分析,以帮助读者更好地理解它们的应用场景及
印度工程师身兼4职年入20万,病假竟在GitHub为别家干活? - 天天要闻

印度工程师身兼4职年入20万,病假竟在GitHub为别家干活?

如果你是一位初创公司创始人,历经千挑万选终于招来一位面试表现堪称“神级”的工程师,但入职没几天:这名工程师却频频请假、交付拖延,理由五花八门:生病、断电、水灾,甚至还说“无人机炸了他的大楼”;更魔幻的是,你发现他请病假的那周,GitHub
热到系统崩溃?一地天气预报惊现54℃高温,短暂异常后恢复显示38℃ - 天天要闻

热到系统崩溃?一地天气预报惊现54℃高温,短暂异常后恢复显示38℃

7月6日,长沙一网友发视频称,我宁愿相信是网页坏了,也不相信明天是54℃。视频显示,7月7日长沙市最高气温将达到54℃,可能会打破7月7日的历史记录。该网友向记者反馈应该是网页出了bug,现在已经恢复正常。记者向网页数据供应商客服致电,截至发稿前未接通。该视频发出后不少网友打趣,这可能才是真实的温度。据湖南省气...
从“上下楼”到“上下游”,江苏常州打造楼宇产业链新生态 - 天天要闻

从“上下楼”到“上下游”,江苏常州打造楼宇产业链新生态

来源:【常州日报-常州网】6月23日早上9时,亿泽智研谷2号楼,江苏立教信息科技有限公司(简称立教科技)的工程师刚在电脑上敲定AI编程积木的电路设计,楼下常州市泽宸电子科技有限公司(简称泽宸电子)的技术员就端着咖啡走进办公室:“新改的电路板
株洲科技职业学院与科大讯飞正式签约共建讯飞人工智能产业学院 - 天天要闻

株洲科技职业学院与科大讯飞正式签约共建讯飞人工智能产业学院

7月6日,株洲科技职业学院与科大讯飞正式签署合作协议,携手共建“讯飞人工智能产业学院”,双方在深化产教融合、培育人工智能领域高素质技术技能人才方面迈出坚实一步。签约仪式上,株洲科技职业学院王贵义董事长对到场的领导、家长和学生致以诚挚欢迎与感谢。他强调,在人工智能技术深刻重塑产业格局、驱动社会变革的当下...
苹果8月1日凌晨发布第三财季财报 预计营收环比下滑 - 天天要闻

苹果8月1日凌晨发布第三财季财报 预计营收环比下滑

【TechWeb】7月7日消息,据外媒报道,随着二季度落下帷幕,各大公司新一季度的财报也就提上了日程,苹果公司就已在官网宣布,他们将在当地时间7月31日美国股市收盘后,也就是北京时间8月1日凌晨,发布截至6月底的2025财年第三财季的财报。在财报发布之后,苹果随后就将举行财报分析师电话会议。苹果公司第三财季的财报分析...