谷歌醫療大模型登Nature：準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型（Med-PaLM），它的詳細測評數據終於披露了！

現在，這篇論文已經登上了Nature，來看看裡面的具體細節吧。

團隊首先研製了Flan-PaLM，並在此基礎之上，通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試（USMLE），取得了67.6%的成績，比此前最好的模型提高了17%。

Med-PaLM相比於Flan-PaLM，在實際問題上的表現有顯著提升，而後者則顯示出很大不足。

經過專業臨床醫生評判，Med-PaLM對實際問題的回答準確率與真人相差無幾。

除了Med-PaLM模型，研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示，自己89歲的奶奶經常問他有沒有發Science或Nature，現在終於可以回答是了。

多套測試數據共同認證

研究團隊一共使用了七套測試數據集，從多個角度對Med-PaLM的表現進行了測評。

首先就是準確性。

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此，故這一步使用後者作為測試對象。

這部分一共使用了多個數據集，包括由USMLE題目構成的MedQA。

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集，Flan-PaLM的成績雖然只提高了0.8%，但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

前面的測評主要是針對模型的理論能力，接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題（HealthSearchQA中100個，另外兩種各20個）。

其中的HealthSearchQA是谷歌自建的，包含了3000多個問題。

這些問題既包括學術問題，也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面，Med-PaLM的結果具有92.6%的一致性，遠高於其前體，與真人醫生相近。

但和真人相比，Med-PaLM輸出的錯誤或不準確信息還是比較高的，在信息缺失方面差距則小一些。

不過錯誤的信息不一定會真的帶來傷害，經過專家評估，Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

甚至出現偏見的概率比人類還要低。

而從模型能力角度看，Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

而作為一款面向不特定人群的語言模型，獲得專業人士的認可是不夠的，因此，研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上，Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題，80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小，但如果分別加上認為「比較有用」的人，區別就沒有那麼明顯了。

從以上測試結果可以看出，Med-PaLM和真人之間還存在一定的差距，但已經是目前最好的醫療大模型。

論文地址：
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

科技

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商 - 天天要聞

漲價壓不住、補貼夠不着，這個五一6000元以上機型難住手機經銷商

圖源：藍鯨科技記者拍攝藍鯨新聞5月3日訊(記者翟智超)按照往年慣例，五一勞動節是手機廠商集中促銷、衝量的關鍵節點，但今年這場例行的“節前大促”卻未能點燃消費熱情。 5月2日下....

05月03日 7401

AI能否超越人類？中南大學院士，走進武鋼三中，開講“硬核”AI課 - 天天要聞

AI能否超越人類？中南大學院士，走進武鋼三中，開講“硬核”AI課

4月29日，在武漢市武鋼三中的報告廳里，一場關於人工智能的科普報告正在進行。台上，中國工程院院士、中南大學教授桂衛華以“大模型與工業應用”為題，為高一學生揭開AI大模型的神秘面紗。桂衛華，中國工程院院士，中南大學教授、博士生導師。

05月03日 1895

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV，第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊，以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級，兼顧商務體面與家庭舒適，為西北高端用戶帶來一站式全能出行解決方案。

05月03日 2042

採購禁入！科華數據材料造假被拒門外 - 天天要聞

採購禁入！科華數據材料造假被拒門外

本報（chinatimes.net.cn）記者胡雅文北京報道這家趕上AI算力風口的公司，因投標材料造假，被相關採購方列入禁入名單兩年，其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告，明確駁回科華數據股份有限公司（下稱“科華數據”，002335.SZ）此前提交的複議申請。早在一年前，科華數據已被認定在“信息通信樞紐...

05月03日 9437

潮聲丨“硅基”勞動節來了，揭秘AI智能體的“五一”勞動日誌 - 天天要聞

潮聲丨“硅基”勞動節來了，揭秘AI智能體的“五一”勞動日誌

潮新聞客戶端執筆夏丹吳柯沁五一小長假，當大多數人按下工作的暫停鍵，走進景區、海邊或深山，城市與工地的另一端，一群沒有血肉之軀的“硅基勞動者”正在高效運轉。 2026年，一人公司（O....

05月03日 7667

馬斯克手撕OpenAI：一場“初心”保衛戰，還是富人的“酸葡萄”？ - 天天要聞

馬斯克手撕OpenAI：一場“初心”保衛戰，還是富人的“酸葡萄”？

如果你最近打開科技新聞，大概率會被一條消息刷屏——馬斯克又開炮了，這次對準的是他親手參與創辦、又親手甩手離開的OpenAI。不是暗戳戳發條推特陰陽怪氣，而是直接遞上法律文書，把Sam Altman和Greg Brockman告上法庭。

05月03日 1848

五一25城車展，ID. 與眾家族齊亮相，購車權益最高享5.6萬 - 天天要聞

五一25城車展，ID. 與眾家族齊亮相，購車權益最高享5.6萬

五一假期（4月30日到5月5日），大眾ID. 與眾家族將帶着全系車型，在全國25個城市的五一車展上集中亮相。屆時，包括全時互聯全尺寸純電SUV與眾08、鋒芒智趣純電SUV與眾06在內的多款車型都會來到現場，和消費者零距離接觸。

05月03日 6759

快評樂道L80：15萬元級買大五座，這波值得沖？ - 天天要聞

快評樂道L80：15萬元級買大五座，這波值得沖？

日前，樂道L80正式發布並開啟預售，其整車購買預售價為24.58萬元起，租電購買預售價則低至15.98萬元起。面對大型SUV市場“細分再細分”之競爭趨勢，這款樂道年度重磅新車都有哪些優勢？又能否成為“大五座SUV革新之作”？下面，圈哥就帶大家全方位感受。

05月03日 8240

成都直擊凱威德：純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德：純電全尺寸SUV的張揚與大氣

4月22日，凱迪拉克以奧斯卡級盛典規格，將上海保利大劇院點亮為璀璨舞台，在品牌代言人倪妮與全場嘉賓的共同見證下，凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置，官方售價區間為46.88萬-50.88萬元。

05月03日 6713

空氣炸鍋哪個品牌最好？2026十大品牌排行榜深度橫評，誰最靠譜 - 天天要聞

空氣炸鍋哪個品牌最好？2026十大品牌排行榜深度橫評，誰最靠譜

夏天想靠空氣炸鍋做減脂餐，結果西蘭花烤得又干又苦，雞胸肉外焦里生。經過2026年4月空氣炸鍋十大品牌排行榜深度橫評，綜合材質、溫控、耐用性和口碑數據，排名第一的空氣炸鍋是宮菱FXGONNE——靠口碑2年間賣了20多萬台，屬於懂行圈子裡的高口

05月03日 1728