谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終於披露了!

現在,這篇論文已經登上了Nature,來看看裡面的具體細節吧。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

團隊首先研製了Flan-PaLM,並在此基礎之上,通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

Med-PaLM相比於Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。

經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾

除了Med-PaLM模型,研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示,自己89歲的奶奶經常問他有沒有發Science或Nature,現在終於可以回答是了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

多套測試數據共同認證

研究團隊一共使用了七套測試數據集,從多個角度對Med-PaLM的表現進行了測評。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

首先就是準確性

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此,故這一步使用後者作為測試對象。

這部分一共使用了多個數據集,包括由USMLE題目構成的MedQA。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集,Flan-PaLM的成績雖然只提高了0.8%,但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題(HealthSearchQA中100個,另外兩種各20個)。

其中的HealthSearchQA是谷歌自建的,包含了3000多個問題。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面,Med-PaLM的結果具有92.6%的一致性,遠高於其前體,與真人醫生相近。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

但和真人相比,Med-PaLM輸出的錯誤或不準確信息還是比較高的,在信息缺失方面差距則小一些。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

甚至出現偏見的概率比人類還要低。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而從模型能力角度看,Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而作為一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上,Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題,80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小,但如果分別加上認為「比較有用」的人,區別就沒有那麼明顯了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

從以上測試結果可以看出,Med-PaLM和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。

論文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

三星Galaxy S22推送6月安全補丁 修復59個安全漏洞 - 天天要聞

三星Galaxy S22推送6月安全補丁 修復59個安全漏洞

【CNMO科技消息】三星在持續提升用戶體驗的路上穩步前行,為Galaxy S22系列帶來了2024年6月的安全維護更新。這次更新率先覆蓋了歐洲市場的Galaxy S22、Galaxy S22+以及旗艦級的Galaxy S22 Ultra,對應的型號分別是SM-S901B、SM-S906B和SM-S908B。  本次安全補丁共解決了59個安全漏洞,涵蓋了從操作
升級「智慧大腦」 拓寬「空中絲路」 - 天天要聞

升級「智慧大腦」 拓寬「空中絲路」

鳥瞰鄭州新鄭國際機場貨運停機坪。河南日報社全媒體記者 徐聰 攝本報訊(記者楊凌趙同增)6月13日,一架盧森堡貨運航空公司的全貨機滿載貨物,再一次從鄭州新鄭國際機場停機坪起飛,呼嘯著從中原飛往歐洲。這是鄭州—盧森堡「空中絲綢之路」日益繁忙、「
怎麼快速偽原創大量的文章?批量偽原創了解下 - 天天要聞

怎麼快速偽原創大量的文章?批量偽原創了解下

在如今信息爆炸的時代,網站優化更新文章已成為每日不可或缺的工作內容。對於編輯人員而言,這項任務既繁重又耗時,因為文章寫作不僅需要良好的文字表達能力,還需要對內容進行深度挖掘和精準定位。然而,在某些特殊情況下,為了滿足網站的日常更新需求,我們
兩款神器!視頻下載工具 - 天天要聞

兩款神器!視頻下載工具

隨著互聯網的飛速發展,視頻內容已經成為我們日常生活中不可或缺的一部分。無論是觀看娛樂節目、學習新知識,還是記錄生活點滴,視頻都以其直觀、生動的形式贏得了廣大用戶的喜愛。然而,在享受視頻帶來的便利和快樂的同時,我們也常常面臨著視頻下載的問題。
快抖下載器:快手視頻批量下載的終極工具? - 天天要聞

快抖下載器:快手視頻批量下載的終極工具?

在現今的社交媒體時代,短視頻以其簡短、生動、富有創意的特點,迅速佔領了人們的日常生活。快手,作為國內領先的短視頻平台,更是憑藉其海量的視頻資源和豐富的用戶互動功能,吸引了數以億計的用戶。
「升級很多,性能很猛」,realme高管確認新機來自真我GT6系列 - 天天要聞

「升級很多,性能很猛」,realme高管確認新機來自真我GT6系列

雖然此前realme副總裁、全球營銷總裁、中國區總裁 @徐起Chase 曾官宣,真我GT7 Pro將會是一款全球推廣的機型,但是根據日前最新官宣看,@realme真我手機 GT數字系列新機並非像此前網間傳言的一樣將跳過GT6系列,而是仍然保留真我GT6系列的命名,只是由於配置「升級很多,性能很猛」,還未確定是命名真我GT6,還是真我GT6加...
微信轉賬不好意思接收怎麼辦?打開這個設置,微信轉賬自動入賬 - 天天要聞

微信轉賬不好意思接收怎麼辦?打開這個設置,微信轉賬自動入賬

在如今的數字時代,微信支付已經滲透到了我們生活的方方面面。無論是吃飯、購物,還是朋友間的轉賬,微信都成了大家的首選。然而,有時候朋友轉賬過來,面對「接受」或「拒絕」的按鈕,許多人可能會覺得有點尷尬。特別是涉及到一些人情世故的時候,既不好意思