「人工智慧醫生」 已經近在眼前。
站長之家(chinaz.com)4 月 9 日 消息:一份報告顯示,人工智慧(ai)的實力在醫療診斷領域也超越了人類。據說,openai 的最新人工智慧模型 gpt-4 比人類醫生更出色。當地時間 8 日,美國斯坦福大學以人為本人工智慧研究所(stanford institute for human-centered ai)發布了《2025 年人工智慧指數報告(artificial intelligence index report 2025)》。根據該報告顯示,在基於臨床案例的診斷測試中,gpt-4 的準確率比人類醫生高出了 16%。報告稱:「總體而言,gpt-4 單獨診斷的性能最高,結果也很穩定。」 接著又指出:「而人類醫生單獨診斷的性能較低」、「不過,當人類醫生與人工智慧協作時,根據使用方式的不同,成果差異很大」 。
《2025 年人工智慧指數報告》中進行的人工智慧與人類醫生的診斷測試實驗,是以向 gpt-4 和美國的 50 名臨床醫生(專科醫生 26 名、普通醫生 24 名)提供 6 名診斷難度較大患者的案例的方式進行的。之後再將 「gpt-4 單獨診斷」、 「gpt-4 協作的人類醫生」、以及「人類醫生單獨診斷」 的診斷結果進行比較。第一個實驗是 「gpt-4 與人類醫生對比」,第二個實驗是 「與 gpt-4 協作的人類醫生與人類醫生對比」,以此來考察診斷的準確性。
結果顯示,gpt-4 診斷組的準確率中位數(92%)比僅由人類醫生診斷的組(76%)高出 16 個百分點。中位數是指將數據排列後位於正中間的數值。此外,與 gpt-4 協作的醫生組的中位數(76%)僅比人類醫生單獨診斷的組(74%)高出 2 個百分點,這一差異也並不顯著。關於準確率,由兩名未直接參与實驗的內科專科醫生按照預先設定的標準進行了獨立評估。他們在不知道每個診斷是誰做出的情況下進行了打分。
這份報告的評估意義在於,它展示了ai在醫療現場的地位正在發生變化 —— ai 不僅被廣泛應用於機器人手術、醫學數據分析,還包括基於人工智慧的癌症篩查解決方案等諸多領域。但此前它一直停留在輔助醫生判斷的領域。
作為全球最具公信力的人工智慧白皮書之一,《人工智慧指數報告》得出了「像 gpt-4 這樣的生成式 ai 模型比醫生診斷得更好」的分析結果,同時也預測:在不久的將來,在醫院裡看到 ai 醫生將成為稀鬆平常之事!
報告評價道:「這次實驗結果總體上表明,gpt-4 診斷的性能最高、且具有一致性」,「即使 ai 與人類醫生協作,根據醫生個人的判斷方式和運用能力的不同,結果也會有所不同」。接著還指出:「最近,在癌症檢測和重症患者識別等領域,也有研究表明人工智慧的表現優於醫療工作者」、「人工智慧的應用範圍正在從單純的診斷擴展到更複雜的臨床判斷領域」 。
與此同時,在衡量 gpt-4 臨床知識性能的代表性標準 「medqa」 基準測試中,gpt-4 去年的準確率達到了 96.0%。與 2022 年的 67.6% 相比,這一數值大幅提高了 28.4 個百分點。medqa 是基於美國醫生國家考試水平的醫學問題而構建的測試,用於評估人工智慧的臨床知識水平。
報告還補充道:「有研究結果表明,人工智慧與醫生的協作能夠產生最佳結果,因此這一領域將成為未來重要的研究課題」、「但人工智慧系統本身也具有一定的潛在風險,例如產生與事實不符信息的『ai幻覺』問題、或不可預測的錯誤等,人們對其可靠性和安全性仍存疑,因此需要制定考慮到這些風險因素的政策應對措施」 。