谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」

2023年07月13日17:23:03 科技 1357

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

能為患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終於披露了!

現在,這篇論文已經登上了Nature,來看看裡面的具體細節吧。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

團隊首先研製了Flan-PaLM,並在此基礎之上,通過提示策略等方式調整得到了成品Med-PaLM。

前者挑戰了美國醫學執照考試(USMLE),取得了67.6%的成績,比此前最好的模型提高了17%。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

Med-PaLM相比於Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。

經過專業臨床醫生評判,Med-PaLM對實際問題的回答準確率與真人相差無幾

除了Med-PaLM模型,研究團隊還推出了自建醫療模型測評數據集。

團隊成員Jason Wei興奮地在社交媒體表示,自己89歲的奶奶經常問他有沒有發Science或Nature,現在終於可以回答是了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

多套測試數據共同認證

研究團隊一共使用了七套測試數據集,從多個角度對Med-PaLM的表現進行了測評。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

首先就是準確性

Med-PaLM相比於其前體Flan-PaLM的主要改進不在於此,故這一步使用後者作為測試對象。

這部分一共使用了多個數據集,包括由USMLE題目構成的MedQA。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

結果Flan-PaLM在其中兩個數據集上的表現較此前的最佳產品均有顯著提升。

而針對PubMedQA數據集,Flan-PaLM的成績雖然只提高了0.8%,但真人在該數據集中取得的成績也只有78%。

更為專業的數據集MMLU中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。

其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。

結果Flan-PaLM的準確度超越了所有的已知模型。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。

這個過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團隊從另外三個數據集中共選擇了140個問題(HealthSearchQA中100個,另外兩種各20個)。

其中的HealthSearchQA是谷歌自建的,包含了3000多個問題。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。

模型的表現則由9名來自不同國家的醫生組成的專家小組進行人工評判。

在科學共識方面,Med-PaLM的結果具有92.6%的一致性,遠高於其前體,與真人醫生相近。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

但和真人相比,Med-PaLM輸出的錯誤或不準確信息還是比較高的,在信息缺失方面差距則小一些。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM造成傷害的可能性與嚴重性和人類相比並不大。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

甚至出現偏見的概率比人類還要低。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而從模型能力角度看,Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

而作為一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對Med-PaLM進行評價。

評價的標準有兩條——「是不是所答所問」和「有沒有幫助」。

結果在答案匹配度上,Med-PaLM和真人差了1.5%。

而對於「有沒有幫助」這個問題,80.3%認為Med-PaLM是「有用」的。

這個數字和真人差距不小,但如果分別加上認為「比較有用」的人,區別就沒有那麼明顯了。

谷歌醫療大模型登Nature:準確率與人類醫生「相差無幾」 - 天天要聞

從以上測試結果可以看出,Med-PaLM和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。

論文地址:
https://www.nature.com/articles/s41586-023-06291-2

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

科技分類資訊推薦

AI 寫作:讓我重拾全職創作之夢的高新科技 - 天天要聞

AI 寫作:讓我重拾全職創作之夢的高新科技

作為痴迷書寫的我,曾懷揣全職創作之夢。無奈,現實的嚴酷與生涯重負佔據了我大部分精力,難以傾心於文字的淬鍊。直至有一日,偶遇AI撰文這一高新科技,使我對寫作及創收有了更深的理解感悟。初識AI寫作:一場意外的邂逅在一個寂靜的深夜,我偶然發現了一
【TOP本色】dynabook Portégé X40L-M評測 AI時代的商用辦公新選擇 - 天天要聞

【TOP本色】dynabook Portégé X40L-M評測 AI時代的商用辦公新選擇

隨着AI技術的飛速發展,我們的辦公模式也迎來了前所未有的變革。利用AI,把文章、資料快速整理成一篇彙報分享 PPT,我們幾個小時的工作直接被AI壓縮到幾分鐘就可以搞定;萬字的長文精鍊匯總,也是沏杯茶的功夫就能完成。可見,AI技術的運用可以極大地提升效率,將職場人士從更多的“內耗”中解放出來,讓他們能夠更專註於創...
宏碁傳奇 Go AI 筆記本電腦開售,14/16 英寸 3999/4299 元 - 天天要聞

宏碁傳奇 Go AI 筆記本電腦開售,14/16 英寸 3999/4299 元

IT之家 6 月 13 日消息,宏碁傳奇 Go AI 輕薄本現已正式開售,搭載 AMD 銳龍 R7-8845H 處理器,提供 14 英寸和 16 英寸兩種尺寸可選,分別為 3999 元和 4299 元。IT之家整理傳奇 Go AI 參數如下:AMD 銳龍 9 8845H 處理器、16GB LPDDR5 6400 雙通道內存、1TB PCIe Gen 4 SD
360演示調用圖片被指侵權:AI生成的圖片版權到底怎麼算 - 天天要聞

360演示調用圖片被指侵權:AI生成的圖片版權到底怎麼算

360發布會涉嫌盜圖,讓AI版權再次站到輿論的聚光燈下。近日,AI創作者DynamicWang在社交媒體表示,周鴻禕在360AI發布會上,涉嫌盜用他創作的模型原圖進行不恰當演示,並喊話周鴻禕,要求道歉。事情緣起是6月6日的360AI新品發布會,360集團創始人周鴻禕在演示360AI瀏覽器“局部重繪”功能時,調用了一張女性古裝寫真圖片,並...
《中國人工智能城市競爭力排行研究報告》重磅發布:北京、深圳、上海多項指標全國領先 - 天天要聞

《中國人工智能城市競爭力排行研究報告》重磅發布:北京、深圳、上海多項指標全國領先

作為全球消費科技領先的增長平台和交流盛典,2024 CTIS消費者科技及創新展覽會於今日開幕。6月13日,備受矚目的T-EDGE未來科技大會@CTIS,在上海新國際博覽中心N1 1D26 論壇區舉辦。大會由鈦媒體攜手CITS特別舉辦,邀請到了多位行業領袖與專家共襄盛舉,分享以AI為代表的新技術賦能科技產業,探討推動產品創新、品牌建設、...
安徽電信的這份“人工智能”答卷,請您來評分! - 天天要聞

安徽電信的這份“人工智能”答卷,請您來評分!

近年來,在這場關於“人工智能”的考試中,中國電信安徽公司AI賦能千行百業,為建設美好安徽交出“皖美答卷”。一起來看看!“醫”:AI賦能醫療數字化轉型中國電信協助安徽醫科大學第一附院醫院打造了“5G+AI+高仿真模擬人”跨區域重症教學模式,該教學模式利用AI技術和高仿真模擬人技術,通過5G網絡示範教學轉播,實現了“...
醫美巨頭尋找新護城河 - 天天要聞

醫美巨頭尋找新護城河

最理想的效果是,前期砸錢形成品牌“護城河”,同時做技術突破文 | 辛穎編輯 | 王小2024年6月5日,華熙生物(688363.SH)面向投資者召開業績說明會,對於在2024年一季度業績剛有起色的華熙生物來說,這可能是一個增加投資者信心的重要機會。截至6月12日收盤,華熙生物市值281.2億元,較巔峰時期的1400多億元,跌去八成多...