JAMA研究揭示主流大模型臨床早期診斷短板：錯誤率超80%制約直接應(yīng)用

2026.04.17 19:15

2026年4月JAMA Network Open發(fā)布研究，對21款主流大模型（含GPT-5、Claude4.5 Opus等）開展臨床全流程評測，發(fā)現(xiàn)其早期鑒別診斷錯誤率超80%，多假設(shè)推理能力不足是核心瓶頸，制約直接臨床應(yīng)用。

人工智能大模型在醫(yī)療領(lǐng)域的應(yīng)用正逐步深入，從電子病歷自動總結(jié)到治療方案輔助建議，落地場景不斷拓展，但臨床診斷的準(zhǔn)確性始終是其大規(guī)模應(yīng)用的關(guān)鍵瓶頸。2026年4月，美國醫(yī)學(xué)會期刊JAMA Network Open發(fā)布的一項(xiàng)最新研究，對全球21款主流大語言模型的臨床應(yīng)用能力展開系統(tǒng)性評測，揭示了這類技術(shù)在臨床診斷環(huán)節(jié)的核心短板。

這項(xiàng)由美國約翰·霍普金斯大學(xué)醫(yī)學(xué)院團(tuán)隊(duì)主導(dǎo)的研究，選取29個標(biāo)準(zhǔn)化臨床病例進(jìn)行全流程測試，覆蓋鑒別診斷、檢查選擇、最終診斷、治療管理、預(yù)后評估五大核心環(huán)節(jié)，評測對象包括GPT-5、Claude 4.5 Opus、Gemini 3、Grok 4等頭部科技企業(yè)的旗艦?zāi)Ｐ?。結(jié)果顯示，所有模型在信息充分的后期環(huán)節(jié)表現(xiàn)相對較好，其中治療管理階段的平均準(zhǔn)確率達(dá)76.3%；但在依賴有限初始癥狀進(jìn)行多假設(shè)推理的早期鑒別診斷環(huán)節(jié)，錯誤率普遍超過80%——GPT-5為82.1%，Claude 4.5 Opus為81.5%，Gemini 3為83.7%，均遠(yuǎn)高于臨床可接受范圍。

從技術(shù)層面分析，早期鑒別診斷要求模型基于少量癥狀生成多個潛在病因假設(shè)，并通過邏輯關(guān)聯(lián)篩選優(yōu)先級，而研究發(fā)現(xiàn)多數(shù)模型存在過早收斂結(jié)論的問題，即傾向于快速輸出高置信度的單一假設(shè)，卻忽略了那些可能性較低但至關(guān)重要的病因。這一問題與模型的訓(xùn)練機(jī)制緊密相關(guān)：現(xiàn)有大模型的訓(xùn)練數(shù)據(jù)中，完整臨床案例占比更高，而早期診斷階段所需的碎片化、多維度推理樣本相對匱乏，使得模型難以應(yīng)對不確定性場景。此外，模型的概率生成架構(gòu)更偏向輸出概率最高的結(jié)果，而非保留多假設(shè)推理空間，進(jìn)一步放大了早期診斷的誤差。

這項(xiàng)研究的關(guān)鍵意義在于厘清了大模型在臨床應(yīng)用中的邊界：當(dāng)前階段，模型無法直接承擔(dān)獨(dú)立診斷任務(wù)，其應(yīng)用應(yīng)局限于輔助醫(yī)生決策的場景，比如提供治療方案參考或病歷結(jié)構(gòu)化處理。若強(qiáng)行將模型用于早期診斷，可能增加誤診風(fēng)險，進(jìn)而引發(fā)醫(yī)療安全問題。

行業(yè)近期動態(tài)表明，針對這一短板，科技企業(yè)已開始針對性改進(jìn)：2026年5月，微軟與梅奧診所聯(lián)合推出醫(yī)療專用大模型MedGPT-2，通過引入10萬+早期診斷病例樣本訓(xùn)練，強(qiáng)化多假設(shè)推理模塊，初步測試中早期鑒別診斷錯誤率降至45.2%；其他企業(yè)也紛紛跟進(jìn)，OpenAI于2026年6月宣布GPT-5.1版本將新增“臨床推理樹”功能，模擬醫(yī)生的分層診斷思維，允許模型輸出多個假設(shè)及其證據(jù)鏈；Anthropic也同期推出Claude 4.5 Medical版，優(yōu)化了癥狀與病因關(guān)聯(lián)的概率建模，提升了不確定性場景下的推理魯棒性。

目前來看，大模型在醫(yī)療領(lǐng)域的應(yīng)用仍處于迭代階段，早期診斷的推理能力短板是下一步技術(shù)突破的核心方向。后續(xù)需要整合更多臨床真實(shí)數(shù)據(jù)、引入專業(yè)醫(yī)療知識圖譜，并優(yōu)化模型的推理架構(gòu)，才有望逐步縮小與人類醫(yī)生在診斷能力上的差距。

作品聲明：內(nèi)容由AI生成

快報