谷歌医疗大模型登Nature:准确率与人类医生“相差无几”

2023年07月13日17:23:03 科技 1357

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

能为患者答疑解惑的谷歌医疗大模型(Med-PaLM),它的详细测评数据终于披露了!

现在,这篇论文已经登上了Nature,来看看里面的具体细节吧。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

团队首先研制了Flan-PaLM,并在此基础之上,通过提示策略等方式调整得到了成品Med-PaLM。

前者挑战了美国医学执照考试(USMLE),取得了67.6%的成绩,比此前最好的模型提高了17%。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

Med-PaLM相比于Flan-PaLM,在实际问题上的表现有显著提升,而后者则显示出很大不足。

经过专业临床医生评判,Med-PaLM对实际问题的回答准确率与真人相差无几

除了Med-PaLM模型,研究团队还推出了自建医疗模型测评数据集。

团队成员Jason Wei兴奋地在社交媒体表示,自己89岁的奶奶经常问他有没有发Science或Nature,现在终于可以回答是了。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

多套测试数据共同认证

研究团队一共使用了七套测试数据集,从多个角度对Med-PaLM的表现进行了测评。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

首先就是准确性

Med-PaLM相比于其前体Flan-PaLM的主要改进不在于此,故这一步使用后者作为测试对象。

这部分一共使用了多个数据集,包括由USMLE题目构成的MedQA。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

结果Flan-PaLM在其中两个数据集上的表现较此前的最佳产品均有显著提升。

而针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%。

更为专业的数据集MMLU中包含来自多个临床知识、医学和生物学相关主题的多项选择题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等方面。

结果Flan-PaLM的准确度超越了所有的已知模型。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

前面的测评主要是针对模型的理论能力,接下来就要进入实战了。

这个过程中Med-PaLM本体和前体Flan-PaLM都是测试的对象。

研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。

其中的HealthSearchQA是谷歌自建的,包含了3000多个问题。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

这些问题既包括学术问题,也包括患者在就医时可能会向医生提出的疑问。

模型的表现则由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

但和真人相比,Med-PaLM输出的错误或不准确信息还是比较高的,在信息缺失方面差距则小一些。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

不过错误的信息不一定会真的带来伤害,经过专家评估,Med-PaLM造成伤害的可能性与严重性和人类相比并不大。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

甚至出现偏见的概率比人类还要低。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

而从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

而作为一款面向不特定人群的语言模型,获得专业人士的认可是不够的,因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。

评价的标准有两条——“是不是所答所问”和“有没有帮助”。

结果在答案匹配度上,Med-PaLM和真人差了1.5%。

而对于“有没有帮助”这个问题,80.3%认为Med-PaLM是“有用”的。

这个数字和真人差距不小,但如果分别加上认为“比较有用”的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

从以上测试结果可以看出,Med-PaLM和真人之间还存在一定的差距,但已经是目前最好的医疗大模型。

论文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

五菱星光2025款,10万级600续航中级轿车的质价比王者 - 天天要闻

五菱星光2025款,10万级600续航中级轿车的质价比王者

虽然国内车市早已变成买方市场,但是预算10万想买一台“完美”的纯电家轿,难度可不小。这个价位的电车,要么续航里程不长、要么车身尺寸不大、要么舒适化和智能化配置一般,这些对于家庭用户来说都是不能容忍的短板。
诺基亚“诈尸”了?不仅活得很好,还在“威胁”中国车企 - 天天要闻

诺基亚“诈尸”了?不仅活得很好,还在“威胁”中国车企

在过去的几年间,人们每每提起燃油车厂商和新能源汽车厂商的对比关系,总是喜欢用诺基亚做例子,将诺基亚在智能手机从巨无霸到迅速垮塌的经历,形容那些不求进取的燃油车企。显然,在智能手机领域,现在的诺基亚已经完全“沉底”了,在全球市场都没有什么存在感了,以至于很多不太关注科技圈的小伙伴都有一个错误的印象,诺...
观澜亭|从《哪吒2》到LABUBU,这座城市被看见 - 天天要闻

观澜亭|从《哪吒2》到LABUBU,这座城市被看见

若是给今年以来全球最火IP排名的话,潮玩LABUBU和电影《哪吒2》及其手办,都是毫无争议的“顶级”。透过二者可见,中国潮玩已然成为全球潮流文化的重要力量,正突破不同的文化背景与地理界限,走向跨文化传播。
华为Pura 80 Pro/Pro+今日首销 售价6499元起 - 天天要闻

华为Pura 80 Pro/Pro+今日首销 售价6499元起

站长之家(ChinaZ.com) 6月14日 消息:今日上午10:08,华为Pura80Pro和Pura80Pro+正式开启销售,首批在官网抢购以及线下预定的用户将陆续拿到新机。这两款机型在整体外观与配置上较为相似,不过在屏幕影像规格方面存在细微差别。在屏幕玻璃材质上,Pura80Pro采用的是第二代昆仑玻璃面板,而Pura80Pro+则配备了与Ultra相
物流快递行业  备战英吉沙鲜杏销售 - 天天要闻

物流快递行业 备战英吉沙鲜杏销售

眼下,17.75万亩英吉沙杏即将迎来丰收。为确保这些美味鲜果能以最佳状态送达全国各地消费者手中,新疆英吉沙县物流行业提前谋划、周密部署,一场全方位的运输保障工作正在紧锣密鼓地筹备中。顺丰鲜杏包装盒 (娜扎凯提 摄)“当天采摘,当天转运,当天运输……”近日,新疆顺丰速运有限公司英吉沙县分公司内,一场关于英吉...
苹果Liquid Glass UI影响文字可读性并提高设计界面难度引发质疑 - 天天要闻

苹果Liquid Glass UI影响文字可读性并提高设计界面难度引发质疑

今年晚些时候苹果设备即将推出的操作系统更新,将带来该公司十多年来首次重大的用户界面设计变革,但眼尖的观察者会发现它与旧版 Windows 有相似之处——微软也注意到了这一点。不过那些对苹果即将推出的界面感到担忧的用户将可以选择更改其视觉呈现
马克龙希望说服台积电/三星在法国建立尖端设施 - 天天要闻

马克龙希望说服台积电/三星在法国建立尖端设施

继美国大力推动芯片生产之后,欧洲似乎是下一个,因为法国总统现在渴望将台积电和三星引入该国,以在国内获取高端节点。随着全球供应链的急剧演变,各国已将重点转向通过在本地生产来满足芯片需求。