谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終於披露了!

現在,這篇論文已經登上了Nature,來看看裏面的具體細節吧。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

團隊首先研製了Flan-PaLM,並在此基礎之上,通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

Med-PaLM相比於Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。

經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾

除了Med-PaLM模型,研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示,自己89歲的奶奶經常問他有沒有發Science或Nature,現在終於可以回答是了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

多套測試數據共同認證

研究團隊一共使用了七套測試數據集,從多個角度對Med-PaLM的表現進行了測評。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

首先就是準確性

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此,故這一步使用後者作為測試對象。

這部分一共使用了多個數據集,包括由USMLE題目構成的MedQA。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集,Flan-PaLM的成績雖然只提高了0.8%,但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題(HealthSearchQA中100個,另外兩種各20個)。

其中的HealthSearchQA是谷歌自建的,包含了3000多個問題。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面,Med-PaLM的結果具有92.6%的一致性,遠高於其前體,與真人醫生相近。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

但和真人相比,Med-PaLM輸出的錯誤或不準確信息還是比較高的,在信息缺失方面差距則小一些。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

甚至出現偏見的概率比人類還要低。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而從模型能力角度看,Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而作為一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上,Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題,80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小,但如果分別加上認為「比較有用」的人,區別就沒有那麼明顯了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

從以上測試結果可以看出,Med-PaLM和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。

論文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

五菱星光2025款,10萬級600續航中級轎車的質價比王者 - 天天要聞

五菱星光2025款,10萬級600續航中級轎車的質價比王者

雖然國內車市早已變成買方市場,但是預算10萬想買一台「完美」的純電家轎,難度可不小。這個價位的電車,要麼續航里程不長、要麼車身尺寸不大、要麼舒適化和智能化配置一般,這些對於家庭用戶來說都是不能容忍的短板。
諾基亞「詐屍」了?不僅活得很好,還在「威脅」中國車企 - 天天要聞

諾基亞「詐屍」了?不僅活得很好,還在「威脅」中國車企

在過去的幾年間,人們每每提起燃油車廠商和新能源汽車廠商的對比關係,總是喜歡用諾基亞做例子,將諾基亞在智能手機從巨無霸到迅速垮塌的經歷,形容那些不求進取的燃油車企。顯然,在智能手機領域,現在的諾基亞已經完全「沉底」了,在全球市場都沒有什麼存在感了,以至於很多不太關注科技圈的小夥伴都有一個錯誤的印象,諾...
觀瀾亭|從《哪吒2》到LABUBU,這座城市被看見 - 天天要聞

觀瀾亭|從《哪吒2》到LABUBU,這座城市被看見

若是給今年以來全球最火IP排名的話,潮玩LABUBU和電影《哪吒2》及其手辦,都是毫無爭議的「頂級」。透過二者可見,中國潮玩已然成為全球潮流文化的重要力量,正突破不同的文化背景與地理界限,走向跨文化傳播。
華為Pura 80 Pro/Pro+今日首銷 售價6499元起 - 天天要聞

華為Pura 80 Pro/Pro+今日首銷 售價6499元起

站長之家(ChinaZ.com) 6月14日 消息:今日上午10:08,華為Pura80Pro和Pura80Pro+正式開啟銷售,首批在官網搶購以及線下預定的用戶將陸續拿到新機。這兩款機型在整體外觀與配置上較為相似,不過在屏幕影像規格方面存在細微差別。在屏幕玻璃材質上,Pura80Pro採用的是第二代崑崙玻璃面板,而Pura80Pro+則配備了與Ultra相
物流快遞行業  備戰英吉沙鮮杏銷售 - 天天要聞

物流快遞行業 備戰英吉沙鮮杏銷售

眼下,17.75萬畝英吉沙杏即將迎來豐收。為確保這些美味鮮果能以最佳狀態送達全國各地消費者手中,新疆英吉沙縣物流行業提前謀劃、周密部署,一場全方位的運輸保障工作正在緊鑼密鼓地籌備中。順豐鮮杏包裝盒 (娜扎凱提 攝)「當天採摘,當天轉運,當天運輸……」近日,新疆順豐速運有限公司英吉沙縣分公司內,一場關於英吉...
蘋果Liquid Glass UI影響文字可讀性並提高設計界面難度引發質疑 - 天天要聞

蘋果Liquid Glass UI影響文字可讀性並提高設計界面難度引發質疑

今年晚些時候蘋果設備即將推出的操作系統更新,將帶來該公司十多年來首次重大的用戶界面設計變革,但眼尖的觀察者會發現它與舊版 Windows 有相似之處——微軟也注意到了這一點。不過那些對蘋果即將推出的界面感到擔憂的用戶將可以選擇更改其視覺呈現
馬克龍希望說服台積電/三星在法國建立尖端設施 - 天天要聞

馬克龍希望說服台積電/三星在法國建立尖端設施

繼美國大力推動芯片生產之後,歐洲似乎是下一個,因為法國總統現在渴望將台積電和三星引入該國,以在國內獲取高端節點。隨着全球供應鏈的急劇演變,各國已將重點轉向通過在本地生產來滿足芯片需求。