谷歌医疗大模型登Nature:准确率与人类医生“相差无几”

2023年07月13日17:23:03 科技 1357

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

能为患者答疑解惑的谷歌医疗大模型(Med-PaLM),它的详细测评数据终于披露了!

现在,这篇论文已经登上了Nature,来看看里面的具体细节吧。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

团队首先研制了Flan-PaLM,并在此基础之上,通过提示策略等方式调整得到了成品Med-PaLM。

前者挑战了美国医学执照考试(USMLE),取得了67.6%的成绩,比此前最好的模型提高了17%。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

Med-PaLM相比于Flan-PaLM,在实际问题上的表现有显著提升,而后者则显示出很大不足。

经过专业临床医生评判,Med-PaLM对实际问题的回答准确率与真人相差无几

除了Med-PaLM模型,研究团队还推出了自建医疗模型测评数据集。

团队成员Jason Wei兴奋地在社交媒体表示,自己89岁的奶奶经常问他有没有发Science或Nature,现在终于可以回答是了。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

多套测试数据共同认证

研究团队一共使用了七套测试数据集,从多个角度对Med-PaLM的表现进行了测评。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

首先就是准确性

Med-PaLM相比于其前体Flan-PaLM的主要改进不在于此,故这一步使用后者作为测试对象。

这部分一共使用了多个数据集,包括由USMLE题目构成的MedQA。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

结果Flan-PaLM在其中两个数据集上的表现较此前的最佳产品均有显著提升。

而针对PubMedQA数据集,Flan-PaLM的成绩虽然只提高了0.8%,但真人在该数据集中取得的成绩也只有78%。

更为专业的数据集MMLU中包含来自多个临床知识、医学和生物学相关主题的多项选择题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等方面。

结果Flan-PaLM的准确度超越了所有的已知模型。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

前面的测评主要是针对模型的理论能力,接下来就要进入实战了。

这个过程中Med-PaLM本体和前体Flan-PaLM都是测试的对象。

研究团队从另外三个数据集中共选择了140个问题(HealthSearchQA中100个,另外两种各20个)。

其中的HealthSearchQA是谷歌自建的,包含了3000多个问题。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

这些问题既包括学术问题,也包括患者在就医时可能会向医生提出的疑问。

模型的表现则由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面,Med-PaLM的结果具有92.6%的一致性,远高于其前体,与真人医生相近。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

但和真人相比,Med-PaLM输出的错误或不准确信息还是比较高的,在信息缺失方面差距则小一些。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

不过错误的信息不一定会真的带来伤害,经过专家评估,Med-PaLM造成伤害的可能性与严重性和人类相比并不大。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

甚至出现偏见的概率比人类还要低。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

而从模型能力角度看,Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

而作为一款面向不特定人群的语言模型,获得专业人士的认可是不够的,因此,研究团队还邀请了非专业人士对Med-PaLM进行评价。

评价的标准有两条——“是不是所答所问”和“有没有帮助”。

结果在答案匹配度上,Med-PaLM和真人差了1.5%。

而对于“有没有帮助”这个问题,80.3%认为Med-PaLM是“有用”的。

这个数字和真人差距不小,但如果分别加上认为“比较有用”的人,区别就没有那么明显了。

谷歌医疗大模型登Nature:准确率与人类医生“相差无几” - 天天要闻

从以上测试结果可以看出,Med-PaLM和真人之间还存在一定的差距,但已经是目前最好的医疗大模型。

论文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

科技分类资讯推荐

宏碁传奇 Go AI 笔记本电脑开售,14/16 英寸 3999/4299 元 - 天天要闻

宏碁传奇 Go AI 笔记本电脑开售,14/16 英寸 3999/4299 元

IT之家 6 月 13 日消息,宏碁传奇 Go AI 轻薄本现已正式开售,搭载 AMD 锐龙 R7-8845H 处理器,提供 14 英寸和 16 英寸两种尺寸可选,分别为 3999 元和 4299 元。IT之家整理传奇 Go AI 参数如下:AMD 锐龙 9 8845H 处理器、16GB LPDDR5 6400 双通道内存、1TB PCIe Gen 4 SD
360演示调用图片被指侵权:AI生成的图片版权到底怎么算 - 天天要闻

360演示调用图片被指侵权:AI生成的图片版权到底怎么算

360发布会涉嫌盗图,让AI版权再次站到舆论的聚光灯下。近日,AI创作者DynamicWang在社交媒体表示,周鸿祎在360AI发布会上,涉嫌盗用他创作的模型原图进行不恰当演示,并喊话周鸿祎,要求道歉。事情缘起是6月6日的360AI新品发布会,360集团创始人周鸿祎在演示360AI浏览器“局部重绘”功能时,调用了一张女性古装写真图片,并...
《中国人工智能城市竞争力排行研究报告》重磅发布:北京、深圳、上海多项指标全国领先 - 天天要闻

《中国人工智能城市竞争力排行研究报告》重磅发布:北京、深圳、上海多项指标全国领先

作为全球消费科技领先的增长平台和交流盛典,2024 CTIS消费者科技及创新展览会于今日开幕。6月13日,备受瞩目的T-EDGE未来科技大会@CTIS,在上海新国际博览中心N1 1D26 论坛区举办。大会由钛媒体携手CITS特别举办,邀请到了多位行业领袖与专家共襄盛举,分享以AI为代表的新技术赋能科技产业,探讨推动产品创新、品牌建设、...
安徽电信的这份“人工智能”答卷,请您来评分! - 天天要闻

安徽电信的这份“人工智能”答卷,请您来评分!

近年来,在这场关于“人工智能”的考试中,中国电信安徽公司AI赋能千行百业,为建设美好安徽交出“皖美答卷”。一起来看看!“医”:AI赋能医疗数字化转型中国电信协助安徽医科大学第一附院医院打造了“5G+AI+高仿真模拟人”跨区域重症教学模式,该教学模式利用AI技术和高仿真模拟人技术,通过5G网络示范教学转播,实现了“...
医美巨头寻找新护城河 - 天天要闻

医美巨头寻找新护城河

最理想的效果是,前期砸钱形成品牌“护城河”,同时做技术突破文 | 辛颖编辑 | 王小2024年6月5日,华熙生物(688363.SH)面向投资者召开业绩说明会,对于在2024年一季度业绩刚有起色的华熙生物来说,这可能是一个增加投资者信心的重要机会。截至6月12日收盘,华熙生物市值281.2亿元,较巅峰时期的1400多亿元,跌去八成多...
四川首个大规模水电解制氢项目在“成都氢谷”正式投入商业运营 - 天天要闻

四川首个大规模水电解制氢项目在“成都氢谷”正式投入商业运营

6月12日,位于成都彭州市“成都氢谷”的华能彭州水电解制氢示范站成功售出第一车“零碳”绿氢,标志着四川首个大规模水电解制氢项目正式投入商业运营。这是彭州市立足服务国家战略腹地建设和国家超大城市能源结构优化调整,促进氢源结构“由灰向绿”逐步转型的创新之举。据了解,该项目由中国华能集团投资运营,是集团首个...