醫(yī)療影像分析是AI在醫(yī)療領(lǐng)域落地的核心場景之一,但傳統(tǒng)模型大多聚焦二維影像處理,對CT、MRI這類三維數(shù)據(jù)的解析能力有限;加上多數(shù)商業(yè)模型采用閉源模式,技術(shù)的普及和迭代也受到了限制。最近,谷歌開源了醫(yī)療AI模型MedGemma1.5,它以處理高維度醫(yī)療數(shù)據(jù)為核心突破點(diǎn),給行業(yè)帶來了新的技術(shù)選擇。
MedGemma1.5的核心能力集中在三個方面:首先,它原生支持CT和MRI三維掃描數(shù)據(jù),不用把立體影像拆成二維切片就能直接分析,能捕捉病灶在空間中的位置、大小以及和周圍組織的關(guān)聯(lián)信息,減少信息丟失;其次,它支持病理學(xué)數(shù)字切片的微觀分析,能識別細(xì)胞形態(tài)異常、組織病變等細(xì)節(jié),滿足病理診斷的高精度要求;另外,在胸部X光分析上,它能實(shí)現(xiàn)精準(zhǔn)標(biāo)注,自動識別肺部結(jié)節(jié)、肺炎等常見病變。
從技術(shù)層面看,MedGemma1.5基于谷歌Gemma基礎(chǔ)模型架構(gòu)優(yōu)化而來,針對醫(yī)療數(shù)據(jù)高維度、多模態(tài)的特點(diǎn),調(diào)整了輸入層和特征提取模塊。它采用分層注意力機(jī)制處理三維影像的空間信息,同時引入領(lǐng)域自適應(yīng)預(yù)訓(xùn)練策略,用大量標(biāo)注醫(yī)療數(shù)據(jù)做微調(diào),保證在專業(yè)場景下性能穩(wěn)定。而且,模型保持了輕量化設(shè)計(jì),可以部署在普通醫(yī)療工作站上,降低了硬件門檻。
這個模型開源的意義在于打破技術(shù)壁壘,讓全球的醫(yī)療機(jī)構(gòu)和科研團(tuán)隊(duì)都能自由使用并進(jìn)行二次開發(fā)。對基層醫(yī)療場景來說,MedGemma1.5能幫助那些缺乏高端設(shè)備和專業(yè)人才的機(jī)構(gòu)提升診斷效率;在科研領(lǐng)域,開源模式會加速醫(yī)療AI算法的迭代,推動更多創(chuàng)新應(yīng)用落地。
行業(yè)動態(tài)上,國際醫(yī)療AI研究聯(lián)盟最近發(fā)布的《2024年醫(yī)療AI開源趨勢報告》顯示,過去一年里開源醫(yī)療AI模型的應(yīng)用覆蓋率增長了27%,其中三維影像處理類模型的需求增速最快;競爭對手方面,OpenAI的GPT-4V模型在醫(yī)療影像識別任務(wù)中表現(xiàn)不錯,但目前還是閉源商業(yè)服務(wù);國內(nèi)的百度文心醫(yī)療大模型最近更新了二維影像分析模塊,它的三維處理功能預(yù)計(jì)2024年第四季度上線,會和MedGemma1.5形成直接競爭。






快報