人工智能大模型在醫(yī)療領(lǐng)域的應(yīng)用正逐步深入,從電子病歷自動總結(jié)到治療方案輔助建議,落地場景不斷拓展,但臨床診斷的準(zhǔn)確性始終是其大規(guī)模應(yīng)用的關(guān)鍵瓶頸。2026年4月,美國醫(yī)學(xué)會期刊JAMA Network Open發(fā)布的一項(xiàng)最新研究,對全球21款主流大語言模型的臨床應(yīng)用能力展開系統(tǒng)性評測,揭示了這類技術(shù)在臨床診斷環(huán)節(jié)的核心短板。
這項(xiàng)由美國約翰·霍普金斯大學(xué)醫(yī)學(xué)院團(tuán)隊(duì)主導(dǎo)的研究,選取29個標(biāo)準(zhǔn)化臨床病例進(jìn)行全流程測試,覆蓋鑒別診斷、檢查選擇、最終診斷、治療管理、預(yù)后評估五大核心環(huán)節(jié),評測對象包括GPT-5、Claude 4.5 Opus、Gemini 3、Grok 4等頭部科技企業(yè)的旗艦?zāi)P?。結(jié)果顯示,所有模型在信息充分的后期環(huán)節(jié)表現(xiàn)相對較好,其中治療管理階段的平均準(zhǔn)確率達(dá)76.3%;但在依賴有限初始癥狀進(jìn)行多假設(shè)推理的早期鑒別診斷環(huán)節(jié),錯誤率普遍超過80%——GPT-5為82.1%,Claude 4.5 Opus為81.5%,Gemini 3為83.7%,均遠(yuǎn)高于臨床可接受范圍。
從技術(shù)層面分析,早期鑒別診斷要求模型基于少量癥狀生成多個潛在病因假設(shè),并通過邏輯關(guān)聯(lián)篩選優(yōu)先級,而研究發(fā)現(xiàn)多數(shù)模型存在過早收斂結(jié)論的問題,即傾向于快速輸出高置信度的單一假設(shè),卻忽略了那些可能性較低但至關(guān)重要的病因。這一問題與模型的訓(xùn)練機(jī)制緊密相關(guān):現(xiàn)有大模型的訓(xùn)練數(shù)據(jù)中,完整臨床案例占比更高,而早期診斷階段所需的碎片化、多維度推理樣本相對匱乏,使得模型難以應(yīng)對不確定性場景。此外,模型的概率生成架構(gòu)更偏向輸出概率最高的結(jié)果,而非保留多假設(shè)推理空間,進(jìn)一步放大了早期診斷的誤差。
這項(xiàng)研究的關(guān)鍵意義在于厘清了大模型在臨床應(yīng)用中的邊界:當(dāng)前階段,模型無法直接承擔(dān)獨(dú)立診斷任務(wù),其應(yīng)用應(yīng)局限于輔助醫(yī)生決策的場景,比如提供治療方案參考或病歷結(jié)構(gòu)化處理。若強(qiáng)行將模型用于早期診斷,可能增加誤診風(fēng)險,進(jìn)而引發(fā)醫(yī)療安全問題。
行業(yè)近期動態(tài)表明,針對這一短板,科技企業(yè)已開始針對性改進(jìn):2026年5月,微軟與梅奧診所聯(lián)合推出醫(yī)療專用大模型MedGPT-2,通過引入10萬+早期診斷病例樣本訓(xùn)練,強(qiáng)化多假設(shè)推理模塊,初步測試中早期鑒別診斷錯誤率降至45.2%;其他企業(yè)也紛紛跟進(jìn),OpenAI于2026年6月宣布GPT-5.1版本將新增“臨床推理樹”功能,模擬醫(yī)生的分層診斷思維,允許模型輸出多個假設(shè)及其證據(jù)鏈;Anthropic也同期推出Claude 4.5 Medical版,優(yōu)化了癥狀與病因關(guān)聯(lián)的概率建模,提升了不確定性場景下的推理魯棒性。
目前來看,大模型在醫(yī)療領(lǐng)域的應(yīng)用仍處于迭代階段,早期診斷的推理能力短板是下一步技術(shù)突破的核心方向。后續(xù)需要整合更多臨床真實(shí)數(shù)據(jù)、引入專業(yè)醫(yī)療知識圖譜,并優(yōu)化模型的推理架構(gòu),才有望逐步縮小與人類醫(yī)生在診斷能力上的差距。






快報