谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終於披露了!

現在,這篇論文已經登上了Nature,來看看裡面的具體細節吧。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

團隊首先研製了Flan-PaLM,並在此基礎之上,通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

Med-PaLM相比於Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。

經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾

除了Med-PaLM模型,研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示,自己89歲的奶奶經常問他有沒有發Science或Nature,現在終於可以回答是了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

多套測試數據共同認證

研究團隊一共使用了七套測試數據集,從多個角度對Med-PaLM的表現進行了測評。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

首先就是準確性

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此,故這一步使用後者作為測試對象。

這部分一共使用了多個數據集,包括由USMLE題目構成的MedQA。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集,Flan-PaLM的成績雖然只提高了0.8%,但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題(HealthSearchQA中100個,另外兩種各20個)。

其中的HealthSearchQA是谷歌自建的,包含了3000多個問題。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面,Med-PaLM的結果具有92.6%的一致性,遠高於其前體,與真人醫生相近。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

但和真人相比,Med-PaLM輸出的錯誤或不準確信息還是比較高的,在信息缺失方面差距則小一些。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

甚至出現偏見的概率比人類還要低。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而從模型能力角度看,Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而作為一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上,Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題,80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小,但如果分別加上認為「比較有用」的人,區別就沒有那麼明顯了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

從以上測試結果可以看出,Med-PaLM和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。

論文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

從內容重構到場景重構,康佳天鏡Mini AI-LED A8系列AI電視顛覆電視交互 - 天天要聞

從內容重構到場景重構,康佳天鏡Mini AI-LED A8系列AI電視顛覆電視交互

當今的電視行業正經歷著前所未有的變革,用戶對於電視機的功能期望已發生顯著變化。過去,用戶在追求豐富視聽體驗的同時,往往遭遇操作複雜的困擾。然而,現在的電視新品已經打破了這一局面,它們不僅提供了多屏互動、場景交互、視屏通話及社交等豐富多樣的功能,極大地豐富了用戶的視聽體驗,而且操作簡便,讓用戶能夠輕鬆...
鈦媒體獨家|騰訊計劃投資月之暗面,楊植麟最新發言:今天人類對AI信任還不夠 - 天天要聞

鈦媒體獨家|騰訊計劃投資月之暗面,楊植麟最新發言:今天人類對AI信任還不夠

(圖片來源:鈦媒體App編輯拍攝)5月20日消息,鈦媒體App獨家獲悉,騰訊公司正考慮投資大模型初創公司月之暗面(Moonshot AI),從而為騰訊與kimi智能助手之間更深層次合作鋪平道路。鈦媒體App就此事向騰訊、月之暗面兩家公司尋求回應。但截至發稿前,騰訊、月之暗面都不予置評。值得一提的是,在此之前,月之暗面已從阿里...
一圖看懂iQOO Pad2系列平板:天璣9300+、第三代驍龍8s雙全球首發 - 天天要聞

一圖看懂iQOO Pad2系列平板:天璣9300+、第三代驍龍8s雙全球首發

快科技5月20日消息,今日,iQOO官方公布了iQOO Pad2 Pro、iQOO Pad2兩款平板電腦的核心配置。據了解,iQOO Pad2 Pro、iQOO Pad2將分別首發搭載聯發科天璣9300+處理器和高通第三代驍龍8s處理器。iQOO Pad2 Pro正面採用13英寸電競巨幕,解析度為3.1K,支持144Hz刷新率,擁有900nit最高亮度,通過
特斯拉開始推送 FSD v12.4 更新:告別「扶方向盤提醒」 嘮叨 - 天天要聞

特斯拉開始推送 FSD v12.4 更新:告別「扶方向盤提醒」 嘮叨

IT之家 5 月 20 日消息,特斯拉開始推送其最新的 FSD v12.4 更新,此次更新移除了備受爭議的「扶方向盤提醒」,同時改進了基於攝像頭的駕駛員監測系統,解決了此前利用太陽眼鏡逃避檢測的漏洞。特斯拉首席執行官埃隆・馬斯克 (Elon Musk) 一貫喜歡稱即將發布的 FSD 更新為「令人震驚」的升級。不過,這次除了誇張的形容詞之...
電信巨頭進軍衛星通訊 SpaceX迎勁敵 - 天天要聞

電信巨頭進軍衛星通訊 SpaceX迎勁敵

隨著以手機直連衛星為代表的星地融合應用的快速增長,衛星移動通信產業開始從部分行業的專用領域,逐漸向大眾消費領域拓展。美國也是如此:有運營商已經計劃為5G版iPhone提供衛星通話和寬頻服務。上周,美國電信巨頭AT&T(美國國際電話電報公司)與衛星通信初創公司AST SpaceMobile公司簽署了一項協議,將直接向日常手機提...
數字化2.0時代來臨,大咖「解碼」數字金融 - 天天要聞

數字化2.0時代來臨,大咖「解碼」數字金融

「不論是科技金融、金融科技或者數字金融,最終目的是驅動金融更好地服務實體經濟。」在日前舉辦的「2024數雲原力大會·新動力數字金融論壇」上,國家金融與發展實驗室理事長李揚說道。中央金融工作會議提出,著力做好科技金融、綠色金融、普惠金融、養老金融、數字金融「五篇大文章」。「數字金融」首次被寫入中央文件,其...
歷史首次!iPhone15官旗降至第三方渠道價,立減2000衝刺618 - 天天要聞

歷史首次!iPhone15官旗降至第三方渠道價,立減2000衝刺618

近幾年,什麼稀奇事都見過了,但沒想到,還是會被蘋果所震驚!去年,iPhone15系列發布後沒多久,蘋果就罕見的拿新款手機參加了雙11。今年,iPhone15官旗立減2000多,價格降至第三方渠道價,衝刺618。歷史首次!這每一件事情拿出來都是「爆炸性」的消息,難道蘋果真的沒招了?
華為Mate 70 或 9 月發,性能提升、純血鴻蒙 - 天天要聞

華為Mate 70 或 9 月發,性能提升、純血鴻蒙

文末有視頻不要忘記看喲~上個月,曝光已久的華為Pura70系列正式宣布了先鋒計劃,並在開售後取得了相當不錯的成績反饋。現在,隨著時間來到2024年5月下旬,華為將在下半年帶來哪些新品也成為了備受關注的內容之一。按慣例推測,華為下半年將推出新一代的Mate系列旗艦,具體的發布時間有可能會在9月前後。與此同時,不少用戶...
OPPO Reno12系列再預熱:首個能發布實況照片的安卓機 - 天天要聞

OPPO Reno12系列再預熱:首個能發布實況照片的安卓機

不久前,OPPO官方宣布,OPPO Reno12系列將於5月23日16:00發布。而隨著發布時間的臨近,官方也陸續公布了不少新機的信息。據官方今日的預熱顯示,OPPO Reno12系列是「首個能發布實況照片的安卓機」,擁有實況照片LivePhoto功能,支持小紅書平台發布,支持全焦段,支持美顏,支持封面編輯,支持封面幀ProXDR顯示。據悉,在OP...