谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終於披露了!

現在,這篇論文已經登上了Nature,來看看裡面的具體細節吧。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

團隊首先研製了Flan-PaLM,並在此基礎之上,通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

Med-PaLM相比於Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。

經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾

除了Med-PaLM模型,研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示,自己89歲的奶奶經常問他有沒有發Science或Nature,現在終於可以回答是了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

多套測試數據共同認證

研究團隊一共使用了七套測試數據集,從多個角度對Med-PaLM的表現進行了測評。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

首先就是準確性

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此,故這一步使用後者作為測試對象。

這部分一共使用了多個數據集,包括由USMLE題目構成的MedQA。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集,Flan-PaLM的成績雖然只提高了0.8%,但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題(HealthSearchQA中100個,另外兩種各20個)。

其中的HealthSearchQA是谷歌自建的,包含了3000多個問題。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面,Med-PaLM的結果具有92.6%的一致性,遠高於其前體,與真人醫生相近。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

但和真人相比,Med-PaLM輸出的錯誤或不準確信息還是比較高的,在信息缺失方面差距則小一些。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

甚至出現偏見的概率比人類還要低。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而從模型能力角度看,Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而作為一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上,Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題,80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小,但如果分別加上認為「比較有用」的人,區別就沒有那麼明顯了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

從以上測試結果可以看出,Med-PaLM和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。

論文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

“充電寶易爆炸,多高校禁用”,衝上熱搜第一!羅馬仕發道歉聲明 - 天天要聞

“充電寶易爆炸,多高校禁用”,衝上熱搜第一!羅馬仕發道歉聲明

來源:@ROMOSS羅馬仕、紅星新聞、南方都市報版權歸原作者所有,如有侵權請及時聯繫近日,多位網友反映收到學校下發的排查通知,稱“20000毫安的羅馬仕牌充電器在充電時易發生爆炸”。事件相關截圖今天,相關詞條衝上熱搜榜第一。今天下午,@ROMOSS羅馬仕 發布公開聲明:對於近期“北京多所高校禁用羅馬仕充電寶”事件的討論...
2025蓮花杯單一品牌賽開啟 F1冠軍級實力打造國家級賽車晉級平台 - 天天要聞

2025蓮花杯單一品牌賽開啟 F1冠軍級實力打造國家級賽車晉級平台

5月30日,成都天府國際賽道——隨着引擎轟鳴劃破長空,2025蓮花杯單一品牌賽揭幕戰正式拉開帷幕。這場由中國汽車摩托車運動聯合會認證、蓮花品牌與銘泰集團聯合打造的國家級 GT單一品牌賽,依託77年賽道基因沉澱與F1尖端技術傳承,成為國內具備國際C級賽照升級資質
70.8萬起售!尊界S800的“尊”在這些細節上 - 天天要聞

70.8萬起售!尊界S800的“尊”在這些細節上

5月30日,尊界S800終於揭開了它最後一層“面紗”,新車共推出純電、增程兩個動力版本共4款配置,售價區間為70.8萬-101.8萬元。上市權益包括30000元的ADS智能輔助系統高階包、30000元的選配金、4000元的智能輔助駕駛無憂服務權益和40000元
松下Panasonic sx電機抽搐不能加載的解決辦法 - 天天要聞

松下Panasonic sx電機抽搐不能加載的解決辦法

松下Panasonic sx系列有名的抖音王,打理起來極為簡單,要麼簡單地換皮帶完事,要麼簡單的丟掉了事。硬着頭皮查電路,得不償失,超薄時期的松下,在電路上極盡變態之能事,恨不得在針眼裡做道場,像我這種顯微鏡加放大鏡式的的眼睛,也不能憑肉眼
兆易創新,逆天改命! - 天天要聞

兆易創新,逆天改命!

一顆,難求!眾所周知,存儲芯片號稱半導體行業的“風向標”,而價格則是存儲芯片的“晴雨表”。2025年第二季度,漲價一詞充斥着整個存儲行業,4-6月內存DRAM和閃存NAND價格持續上升。
2025中國電腦品牌大洗牌!這十大品牌讓全球科技圈震驚 - 天天要聞

2025中國電腦品牌大洗牌!這十大品牌讓全球科技圈震驚

當時間滑向2025年,中國電腦市場早已不是十年前那個被國際巨頭壟斷的戰場。本土品牌的崛起速度之快,讓整個科技圈都為之側目。作為一個長期關注科技行業的觀察者,我親眼見證了中國電腦品牌如何從"跟隨者"蛻變為"領跑者"。
抖音風口揭秘:流量紅利背後的殘酷真相 - 天天要聞

抖音風口揭秘:流量紅利背後的殘酷真相

"抓住抖音風口,月入百萬不是夢!"——這樣的口號你一定不陌生。但抖音的風口到底是什麼?是曇花一現的流量狂歡,還是真正可持續的商業機遇?今天,我將帶你深入剖析這個讓無數人趨之若鶩的"風口"本質。
【新機】Pura 80 Pro+/Pro今日開售,標準版配置公布 - 天天要聞

【新機】Pura 80 Pro+/Pro今日開售,標準版配置公布

華為Pura 80系列於今早10:08迎來了首銷,大家都搶到了嗎?這次首銷機型為Pura 80 Pro+/Pro,Ultra首銷日期為本月26日,標準版將於7月開售,不過除了知道有這麼一個型號以及外觀,其他信息在發布會上並沒有披露,只是說會在7月開售。不過目前官方更新了Pura 80標準版的頁面,從規格信息我們也能看到標準版的大概配置信息。P...
【新機】LED燈帶沒有了?Nothing新機曝光 - 天天要聞

【新機】LED燈帶沒有了?Nothing新機曝光

近日海外博主曝光了疑似Nothing Phone(3)的高清渲染圖,能看到機子依然延續了透明後蓋的設計,不過標誌性的LED燈帶是去掉了。內部絲印蓋板具有豐富的科技感,居中奧利奧Deco,後置三攝,鏡頭的排列有點像一個猴子。那麼大家會給這個外觀設計打幾分呢?據悉Nothing Phone(3)將會是Nothing的首款真正旗艦手機,性能也會大...