谷歌医疗大模型登Nature:准确率与人类医生「相差无几」

2023年07月13日17:23:03 科技 1357

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

能为患者答疑解惑的谷歌医疗大模型(Med-PaLM),它的详细测评数据终于披露了!

现在,这篇论文已经登上了Nature,来看看里面的具体细节吧。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

团队首先研制了Flan-PaLM,并在此基础之上,通过提示策略等方式调整得到了成品Med-PaLM。

前者挑战了美国医学执照考试(USMLE),取得了67.6%的成绩,比此前最好的模型提高了17%。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

Med-PaLM相比于Flan-PaLM,在实际问题上的表现有显著提升,而后者则显示出很大不足。

经过专业临床医生评判,Med-PaLM对实际问题的回答准确率与真人相差无几

除了Med-PaLM模型,研究团队还推出了自建医疗模型测评数据集。

团队成员Jason Wei兴奋地在社交媒体表示,自己89岁的奶奶经常问他有没有发Science或Nature,现在终于可以回答是了。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

多套测试数据共同认证

研究团队一共使用了七套测试数据集,从多个角度对Med-PaLM的表现进行了测评。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

首先就是准确性

Med-PaLM相比于其前体Flan-PaLM的主要改进不在于此,故这一步使用后者作为测试对象。

这部分一共使用了多个数据集,包括由USMLE题目构成的MedQA。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

结果Flan-PaLM在其中两个数据集上的表现较此前的最佳产品均有显著提升。

而针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%。

更为专业的数据集MMLU中包含来自多个临床知识、医学和生物学相关主题的多项选择题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等方面。

结果Flan-PaLM的准确度超越了所有的已知模型。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

前面的测评主要是针对模型的理论能力,接下来就要进入实战了。

这个过程中Med-PaLM本体和前体Flan-PaLM都是测试的对象。

研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。

其中的HealthSearchQA是谷歌自建的,包含了3000多个问题。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

这些问题既包括学术问题,也包括患者在就医时可能会向医生提出的疑问。

模型的表现则由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

但和真人相比,Med-PaLM输出的错误或不准确信息还是比较高的,在信息缺失方面差距则小一些。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

不过错误的信息不一定会真的带来伤害,经过专家评估,Med-PaLM造成伤害的可能性与严重性和人类相比并不大。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

甚至出现偏见的概率比人类还要低。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

而从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

而作为一款面向不特定人群的语言模型,获得专业人士的认可是不够的,因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。

评价的标准有两条——「是不是所答所问」和「有没有帮助」。

结果在答案匹配度上,Med-PaLM和真人差了1.5%。

而对于「有没有帮助」这个问题,80.3%认为Med-PaLM是「有用」的。

这个数字和真人差距不小,但如果分别加上认为「比较有用」的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率与人类医生「相差无几」 - 天天要闻

从以上测试结果可以看出,Med-PaLM和真人之间还存在一定的差距,但已经是目前最好的医疗大模型。

论文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

让艺术与技术双向奔赴 - 天天要闻

让艺术与技术双向奔赴

【艺点·聚焦美院毕业季】作者:陈抱阳(中央美术学院实验艺术与科技艺术学院教师)一年一度的美院毕业季如约而至,漫步在展馆之中,似乎感受到一股蓬勃的“新技术风潮”:AI图像生成,机械臂动作设计,融合传感器与机器人系统的互动装置……这些作品不仅横
WWDC 2025前瞻:从iOS 19到AI和iPad功能再突破,共有5大看点 - 天天要闻

WWDC 2025前瞻:从iOS 19到AI和iPad功能再突破,共有5大看点

苹果WWDC 2025马上就要登场了,每年这个时候,果粉们最关心的无非两个问题:苹果又整了什么新活儿?这次的升级,值得我们买单吗?我今天提前帮大家把外媒最新爆料梳理了一遍,说实话,这次的变化不只是一次系统迭代,而像是一场彻底的“苹果生态洗牌
小米汽车回应YU7门把手是否会冻住:可通过敲击等方式破冰 - 天天要闻

小米汽车回应YU7门把手是否会冻住:可通过敲击等方式破冰

站长之家(ChinaZ.com)5月24日 消息:近日,小米汽车官微开启新一期网友问答互动,针对网友提出的“小米YU7的门把手冬天是否会被冻住”这一疑问,小米官方给出了详细解答。小米官方介绍,小米YU7配备的电动内翻门把手在设计上颇具匠心。其不仅在美学层面符合设计要求,在可靠性和人体工程学方面也经过了充分验证,功能体验...
小米YU7闭式双腔空簧系统详解:比普通空簧系统更具优势 - 天天要闻

小米YU7闭式双腔空簧系统详解:比普通空簧系统更具优势

快科技5月25日消息,小米YU7配备的闭式双腔空簧系统相比普通的空簧系统有哪些优势?官方表示,与普通开式单腔空簧系统相比,闭式双腔空簧系统在舒适性、操控性和响应速度等方面相对更有优势,悬架高度调节速度大幅提升。小米YU7 Pro和小米YU7 Max搭载的闭式双腔空气弹簧系统支持5挡高度调节,高度调节范围达75mm,最高离地...
三峡电源电站全电站工控系统技术升级改造完成 - 天天要闻

三峡电源电站全电站工控系统技术升级改造完成

5月22日,随着X2号机组完成改造之后的启动调试,三峡电源电站全电站工控系统技术升级改造圆满完成。▲三峡电厂员工开展X2号机组改造后信号核对工作 本文摄影:田娜三峡电站总装机容量达2250万千瓦,是当今世界上最大的水电站,也是名副其实的“大国重器”。三峡电源电站是三峡电站的“保安卫士”,装有两台单机容量为5万千...
一字之差净化能力那么强?一文读懂小米净烟机选购攻略 - 天天要闻

一字之差净化能力那么强?一文读懂小米净烟机选购攻略

前言:中国饮食文化多元化,不少地区的朋友喜欢麻辣、重辣、爆炒的口味和烹饪方式。这类型的烹饪的过程中产生的油烟、热量、浓烈的气味容易让人却步,尤其是对于一般小户型的家庭来说,尤其是开放式厨房的油烟、气味压力都非常大。