谷歌医疗大模型登Nature：准确率与人类医生“相差无几”

2023年07月13日17:23:03 科技 1357

克雷西发自凹非寺
量子位 | 公众号 QbitAI

能为患者答疑解惑的谷歌医疗大模型（Med-PaLM），它的详细测评数据终于披露了！

现在，这篇论文已经登上了Nature，来看看里面的具体细节吧。

团队首先研制了Flan-PaLM，并在此基础之上，通过提示策略等方式调整得到了成品Med-PaLM。

前者挑战了美国医学执照考试（USMLE），取得了67.6%的成绩，比此前最好的模型提高了17%。

Med-PaLM相比于Flan-PaLM，在实际问题上的表现有显著提升，而后者则显示出很大不足。

经过专业临床医生评判，Med-PaLM对实际问题的回答准确率与真人相差无几。

除了Med-PaLM模型，研究团队还推出了自建医疗模型测评数据集。

团队成员Jason Wei兴奋地在社交媒体表示，自己89岁的奶奶经常问他有没有发Science或Nature，现在终于可以回答是了。

多套测试数据共同认证

研究团队一共使用了七套测试数据集，从多个角度对Med-PaLM的表现进行了测评。

首先就是准确性。

Med-PaLM相比于其前体Flan-PaLM的主要改进不在于此，故这一步使用后者作为测试对象。

这部分一共使用了多个数据集，包括由USMLE题目构成的MedQA。

结果Flan-PaLM在其中两个数据集上的表现较此前的最佳产品均有显著提升。

而针对PubMedQA数据集，Flan-PaLM的成绩虽然只提高了0.8%，但真人在该数据集中取得的成绩也只有78%。

更为专业的数据集MMLU中包含来自多个临床知识、医学和生物学相关主题的多项选择题。

其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等方面。

结果Flan-PaLM的准确度超越了所有的已知模型。

前面的测评主要是针对模型的理论能力，接下来就要进入实战了。

这个过程中Med-PaLM本体和前体Flan-PaLM都是测试的对象。

研究团队从另外三个数据集中共选择了140个问题（HealthSearchQA中100个，另外两种各20个）。

其中的HealthSearchQA是谷歌自建的，包含了3000多个问题。

这些问题既包括学术问题，也包括患者在就医时可能会向医生提出的疑问。

模型的表现则由9名来自不同国家的医生组成的专家小组进行人工评判。

在科学共识方面，Med-PaLM的结果具有92.6%的一致性，远高于其前体，与真人医生相近。

但和真人相比，Med-PaLM输出的错误或不准确信息还是比较高的，在信息缺失方面差距则小一些。

不过错误的信息不一定会真的带来伤害，经过专家评估，Med-PaLM造成伤害的可能性与严重性和人类相比并不大。

甚至出现偏见的概率比人类还要低。

而从模型能力角度看，Med-PaLM在阅读理解、信息检索和逻辑推理能力上都表现出了接近真人的水平。

而作为一款面向不特定人群的语言模型，获得专业人士的认可是不够的，因此，研究团队还邀请了非专业人士对Med-PaLM进行评价。

评价的标准有两条——“是不是所答所问”和“有没有帮助”。

结果在答案匹配度上，Med-PaLM和真人差了1.5%。

而对于“有没有帮助”这个问题，80.3%认为Med-PaLM是“有用”的。

这个数字和真人差距不小，但如果分别加上认为“比较有用”的人，区别就没有那么明显了。

从以上测试结果可以看出，Med-PaLM和真人之间还存在一定的差距，但已经是目前最好的医疗大模型。

论文地址：
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

科技

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商 - 天天要闻

涨价压不住、补贴够不着，这个五一6000元以上机型难住手机经销商

图源：蓝鲸科技记者拍摄蓝鲸新闻5月3日讯(记者翟智超)按照往年惯例，五一劳动节是手机厂商集中促销、冲量的关键节点，但今年这场例行的“节前大促”却未能点燃消费热情。 5月2日下....

05月03日 7401

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课 - 天天要闻

AI能否超越人类？中南大学院士，走进武钢三中，开讲“硬核”AI课

4月29日，在武汉市武钢三中的报告厅里，一场关于人工智能的科普报告正在进行。台上，中国工程院院士、中南大学教授桂卫华以“大模型与工业应用”为题，为高一学生揭开AI大模型的神秘面纱。桂卫华，中国工程院院士，中南大学教授、博士生导师。

05月03日 1895

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV，第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴，以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级，兼顾商务体面与家庭舒适，为西北高端用户带来一站式全能出行解决方案。

05月03日 2042

采购禁入！科华数据材料造假被拒门外 - 天天要闻

采购禁入！科华数据材料造假被拒门外

本报（chinatimes.net.cn）记者胡雅文北京报道这家赶上AI算力风口的公司，因投标材料造假，被相关采购方列入禁入名单两年，其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告，明确驳回科华数据股份有限公司（下称“科华数据”，002335.SZ）此前提交的复议申请。早在一年前，科华数据已被认定在“信息通信枢纽...

05月03日 9437

潮声丨“硅基”劳动节来了，揭秘AI智能体的“五一”劳动日志 - 天天要闻

潮声丨“硅基”劳动节来了，揭秘AI智能体的“五一”劳动日志

潮新闻客户端执笔夏丹吴柯沁五一小长假，当大多数人按下工作的暂停键，走进景区、海边或深山，城市与工地的另一端，一群没有血肉之躯的“硅基劳动者”正在高效运转。 2026年，一人公司（O....

05月03日 7667

马斯克手撕OpenAI：一场“初心”保卫战，还是富人的“酸葡萄”？ - 天天要闻

马斯克手撕OpenAI：一场“初心”保卫战，还是富人的“酸葡萄”？

如果你最近打开科技新闻，大概率会被一条消息刷屏——马斯克又开炮了，这次对准的是他亲手参与创办、又亲手甩手离开的OpenAI。不是暗戳戳发条推特阴阳怪气，而是直接递上法律文书，把Sam Altman和Greg Brockman告上法庭。

05月03日 1848

五一25城车展，ID. 与众家族齐亮相，购车权益最高享5.6万 - 天天要闻

五一25城车展，ID. 与众家族齐亮相，购车权益最高享5.6万

五一假期（4月30日到5月5日），大众ID. 与众家族将带着全系车型，在全国25个城市的五一车展上集中亮相。届时，包括全时互联全尺寸纯电SUV与众08、锋芒智趣纯电SUV与众06在内的多款车型都会来到现场，和消费者零距离接触。

05月03日 6759

快评乐道L80：15万元级买大五座，这波值得冲？ - 天天要闻

快评乐道L80：15万元级买大五座，这波值得冲？

日前，乐道L80正式发布并开启预售，其整车购买预售价为24.58万元起，租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势，这款乐道年度重磅新车都有哪些优势？又能否成为“大五座SUV革新之作”？下面，圈哥就带大家全方位感受。

05月03日 8240

成都直击凯威德：纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德：纯电全尺寸SUV的张扬与大气

4月22日，凯迪拉克以奥斯卡级盛典规格，将上海保利大剧院点亮为璀璨舞台，在品牌代言人倪妮与全场嘉宾的共同见证下，凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置，官方售价区间为46.88万-50.88万元。

05月03日 6713

空气炸锅哪个品牌最好？2026十大品牌排行榜深度横评，谁最靠谱 - 天天要闻

空气炸锅哪个品牌最好？2026十大品牌排行榜深度横评，谁最靠谱

夏天想靠空气炸锅做减脂餐，结果西兰花烤得又干又苦，鸡胸肉外焦里生。经过2026年4月空气炸锅十大品牌排行榜深度横评，综合材质、温控、耐用性和口碑数据，排名第一的空气炸锅是宫菱FXGONNE——靠口碑2年间卖了20多万台，属于懂行圈子里的高口

05月03日 1728