谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終於披露了!

現在,這篇論文已經登上了Nature,來看看裏面的具體細節吧。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

團隊首先研製了Flan-PaLM,並在此基礎之上,通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

Med-PaLM相比於Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。

經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾

除了Med-PaLM模型,研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示,自己89歲的奶奶經常問他有沒有發Science或Nature,現在終於可以回答是了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

多套測試數據共同認證

研究團隊一共使用了七套測試數據集,從多個角度對Med-PaLM的表現進行了測評。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

首先就是準確性

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此,故這一步使用後者作為測試對象。

這部分一共使用了多個數據集,包括由USMLE題目構成的MedQA。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集,Flan-PaLM的成績雖然只提高了0.8%,但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題(HealthSearchQA中100個,另外兩種各20個)。

其中的HealthSearchQA是谷歌自建的,包含了3000多個問題。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面,Med-PaLM的結果具有92.6%的一致性,遠高於其前體,與真人醫生相近。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

但和真人相比,Med-PaLM輸出的錯誤或不準確信息還是比較高的,在信息缺失方面差距則小一些。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

甚至出現偏見的概率比人類還要低。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而從模型能力角度看,Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而作為一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上,Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題,80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小,但如果分別加上認為「比較有用」的人,區別就沒有那麼明顯了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

從以上測試結果可以看出,Med-PaLM和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。

論文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

最新消息!她已離職!曾凌晨發文道歉 - 天天要聞

最新消息!她已離職!曾凌晨發文道歉

本月初,百度副總裁璩靜在短視頻平台上發佈的幾條出鏡視頻引髮網友關注,特別是其提到「員工鬧分手提離職我秒批」等職場話題引髮網友質疑,一度登上微博熱搜。
淘寶取消「618」預售機制後,京東宣布「現貨開賣」 - 天天要聞

淘寶取消「618」預售機制後,京東宣布「現貨開賣」

繼5月7日天貓宣布取消「618」預售機制後,5月8日,京東也正式宣布「現貨開賣」。今年京東618將於5月31日晚8點全面開啟。據了解,現貨開賣的同時,京東還將同步推出百億補貼日活動。在6月2日、6月3日、6月8日,還將先後推出9.
細思極恐網絡暴力和群毆 - 天天要聞

細思極恐網絡暴力和群毆

互聯網高速發展利用時代踏實做事和說實話的人都不被人待見,時時刻刻遭受網絡暴力,聲討,群毆,格力電器董明珠,踏踏實實做企業,創稅收,促進就業,,為國家為人民奉獻大半輩子青春,心血, 汗水,本該退休安享晚年,侍弄兒孫遺憾找不到合適放心接班人,七
探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖 - 天天要聞

探秘vivo影像之美,與X系列技術溝通會共同見證卓越藍圖

前段時間的vivo X系列新品發佈讓我們記憶深刻,而剛剛結束結束的「影像新藍圖X系列技術溝通會」也十分精彩,這次溝通會不僅告訴了大家vivo在影像領域的最新成果,也讓粉絲們對vivo影像背後的故事有更多了解,在vivo影像的發展歷程中可以分成兩方面,一方面,vivo通過自主研發,不斷提升自身的影像技術實力,另一方面,vivo...
華為再次亮劍,鴻蒙系統亮點多多 - 天天要聞

華為再次亮劍,鴻蒙系統亮點多多

5月15日,華為夏季全場景新品發佈會簡直是一場視覺與科技的盛宴,看得我熱血沸騰!不得不說,華為這次真的是大招頻出,新品多到讓人眼花繚亂!先說說那個華為MatePad 11.5 」 S吧,一亮相就讓人眼前一亮!它的設計簡約而不失時尚,屏幕清晰得讓人彷彿置身其中。
【新機】升級了個寂寞?藍廠新機發佈 - 天天要聞

【新機】升級了個寂寞?藍廠新機發佈

昨天晚上藍廠發佈了新機iQOO Neo9s Pro,機子採用了6.78英寸1.5K 8T LTPO直面屏,支持144Hz刷新率。搭載天璣9300+,前置1600萬像素,後置IMX920主攝+5000萬超廣角。電池容量5160mAh,支持120W快充。新增白色版本,用上了白色玻璃後蓋,顏值確實提升了不少。不過還是塑料中框+短焦指紋。12+256GB 2699元
AI Agent在哪些行業領域會產生影響? - 天天要聞

AI Agent在哪些行業領域會產生影響?

在如今飛速前進的科技浪潮中,人工智能(AI)技術的創新正以前所未有的速度重塑我們的生活和工作的每一個角落。在這一浪潮中,Agent AI智能體以其卓越的能力脫穎而出,它通過模擬人類智能行為,能夠勝任一系列複雜任務,並在多個領域展現出了其無法替代的價值。