百川智能創(chuàng)始人、CEO 王小川,圖片來源:百川智能
1月13日,百川智能正式開源新一代醫(yī)療大模型Baichuan-M3。
在全球權(quán)威醫(yī)療AI評測HealthBench中,Baichuan-M3以65.1分的綜合成績位列全球第一;在專門考驗(yàn)復(fù)雜決策能力的HealthBench Hard上,以44.4分的成績奪冠。
這一成績刷新了HealthBench的最高分,首次在醫(yī)療領(lǐng)域?qū)崿F(xiàn)了對GPT-5.2的全面超越。在低幻覺領(lǐng)域,M3也實(shí)現(xiàn)了超越,幻覺率3.5全球最低。
![]()
圖片來源:百川智能
M3還首次具備了原生的“端到端”嚴(yán)肅問診能力。它能像醫(yī)生一樣主動(dòng)追問、逐層逼近,把關(guān)鍵病史和風(fēng)險(xiǎn)信號問出來,進(jìn)而在完整的信息上進(jìn)行深度醫(yī)學(xué)推理。評測顯示,其問診能力顯著高于真人醫(yī)生的平均水平。
從月初OpenAI發(fā)布ChatGPT Health,到今天(1月13日) Anthropic推出Claude for Healthcare,AI醫(yī)療正在全球范圍內(nèi)提檔加速。
強(qiáng)化學(xué)習(xí)是過去一年新一代Scaling Law的技術(shù)中軸。在M2發(fā)布后的五個(gè)月里,百川智能對強(qiáng)化學(xué)習(xí)系統(tǒng)進(jìn)行了升級,將原本以患者模擬器和靜態(tài)Rubric為主的半動(dòng)態(tài)反饋,升級為隨模型能力不斷演進(jìn)的全動(dòng)態(tài)Verifier System。
隨著監(jiān)督信號持續(xù)變細(xì)、變難,模型不斷突破能力上限,M3在復(fù)雜醫(yī)學(xué)問題上的表現(xiàn)實(shí)現(xiàn)躍遷,在HealthBench總分上超越OpenAI最新模型GPT-5.2,也在HealthBench Hard上登頂,成為當(dāng)前全球醫(yī)療溝通和推理能力最強(qiáng)的醫(yī)療大模型。
2025年8月,百川開源醫(yī)療增強(qiáng)大模型M2在HealthBench Hard上取得34.7分的成績,僅次于GPT-5,成為全球唯二突破32分的模型。
在大多數(shù)場景,大模型幻覺只是體驗(yàn)問題,而在嚴(yán)肅醫(yī)療場景可能導(dǎo)致安全事件,這也對AI醫(yī)療的普及和醫(yī)患信任建立帶來很大困擾。
百川M3將醫(yī)療幻覺抑制前移至模型訓(xùn)練階段,在強(qiáng)化學(xué)習(xí)過程中將醫(yī)學(xué)事實(shí)一致性作為核心訓(xùn)練目標(biāo)之一,將“知之為知之,不知為不知”直接作用于模型自身能力的形成過程。
這一新的訓(xùn)練方法將醫(yī)學(xué)事實(shí)可靠性內(nèi)化為M3自身的基礎(chǔ)能力,使其在不借助任何外部系統(tǒng)的情況下,依然能夠基于自身醫(yī)學(xué)知識進(jìn)行穩(wěn)定、可信的作答。
通過將事實(shí)一致性約束融入訓(xùn)練流程,M3重構(gòu)了幻覺抑制的訓(xùn)練范式,在不依賴工具或檢索增強(qiáng)的純模型設(shè)置下,醫(yī)療幻覺率3.5,超越GPT-5.2。
除了強(qiáng)推理和低幻覺,端到端的問診能力是本次M3最重要的一項(xiàng)突破。
2025年行業(yè)的技術(shù)共識是,用戶提供更完整的上下文,模型才有更好的表現(xiàn)。而在醫(yī)療領(lǐng)域,患者很難完整表達(dá)自己的病癥,需要模型像醫(yī)生一樣有能力把患者的混亂敘述轉(zhuǎn)變成可做診療決策的信息。
在Baichuan-M3媒體溝通會上,百川智能創(chuàng)始人、CEO王小川表示,當(dāng)前大模型在醫(yī)療場景的短板在于,患者描述不完整,模型須具備“主動(dòng)提問”能力,以收集足夠信息支持決策。
應(yīng)用實(shí)踐中,通過prompt“你是一位經(jīng)驗(yàn)豐富的醫(yī)生”,激活模型的“角色扮演”是更常見的做法。這種方式得到的是模型的表演行為,而非內(nèi)生能力,激活的是模型應(yīng)該提問的行為,而不是必須獲取關(guān)鍵信息的思考。
針對這一行業(yè)困境,百川智能提出了“嚴(yán)肅問診范式”與“SCAN原則”,通過Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程,第一次系統(tǒng)性地“白盒化”。![]()
圖片來源:百川智能
圍繞SCAN原則,百川智能借鑒醫(yī)學(xué)教育里長期使用的OSCE方法,聯(lián)合150多位一線醫(yī)生,搭建了SCAN-bench評測體系,該體系以真實(shí)臨床經(jīng)驗(yàn)作為“標(biāo)準(zhǔn)答案”,將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段,通過動(dòng)態(tài)、多輪的方式進(jìn)行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于HealthBench,SCAN-bench是一種全流程端到端的動(dòng)態(tài)評測新范式。
醫(yī)療應(yīng)用“百小應(yīng)”已同步接入M3,面向醫(yī)生與患者開放相關(guān)能力。醫(yī)生可借助它推演問診與診療思路,患者及家屬也可通過該應(yīng)用更系統(tǒng)地理解診斷、治療、檢查與預(yù)后背后的醫(yī)學(xué)邏輯。
在溝通會上的交流環(huán)節(jié),王小川直言,數(shù)據(jù)不是核心,很多醫(yī)療模型不知道自己在做什么,他更看重算法與評測體系的重要性。
王小川預(yù)判,醫(yī)療AI未來巨大的增量是在院外,不在院內(nèi)。他認(rèn)為,醫(yī)療AI更多的是服務(wù)患者,而非替代醫(yī)生,可以推動(dòng)“醫(yī)患權(quán)力讓渡”。百川智能目前已與藥企、醫(yī)院合作,未來商業(yè)化是To C導(dǎo)向,通過輔助決策和健康陪伴等方式實(shí)現(xiàn)。
Q:剛才講到你們可以解決很多幻覺的問題,可以在多大程度上導(dǎo)致智能一定程度上損耗?大概會損耗多少?怎么解決這個(gè)問題?因?yàn)檫@次是語言模型,我們知道主戰(zhàn)場還是多模態(tài)比較重要,有沒有相關(guān)的進(jìn)展披露?怎么看二者之間的關(guān)系?
王小川:這就是有用和有害的平衡,算法需要把二者拿捏才能做到綜合評分很高。HealthBench就是降低有害,提升有用。多模態(tài)主戰(zhàn)場這個(gè)話我是不認(rèn)同的,我們2023年就提到語言是自己的中軸,ChatGPT發(fā)布的時(shí)候,大家最震撼的就是掌握智力。智力是把不抽象的事情變成抽象事情的能力,所以符號才是核心。
類比即智力,因此在這種邏輯下主要有三種語言:自然語言、數(shù)學(xué)語言、代碼語言,都是形式語言。之前的數(shù)學(xué)家講過數(shù)學(xué)是用相同的事情刻畫不同的事情,Give the same name to different things,所以符號和語言才是中軸。
到目前為止,評判某個(gè)公司的模型能力強(qiáng)不強(qiáng)都是以符號作為基礎(chǔ),可用性很強(qiáng)并不代表智力很高?,F(xiàn)在醫(yī)療領(lǐng)域很多都是決策問題,并不只是圖像問題,否則看片子就行了。以后醫(yī)院看片子會由小模型來做,很多廠商都有圖像引擎,符號化以后再用語言開展推理工作。感知模型和認(rèn)知模型需要結(jié)合,可見的時(shí)候就是把影像變成報(bào)告和診斷模型,最近還有胰腺癌頻掃CT模型,相比智力模型屬于樹上掛著的小葉子,不是主戰(zhàn)場。
Q:所以你們多模態(tài)會用偏小的參數(shù)去做?
王小川:會的,下次我們就會發(fā)布和圖像相關(guān)的模型,就是醫(yī)療圖像診斷做到SOTA的水平,M3只是更小的課題。
Q:要是做得更小的話,是不是背后更重要的是數(shù)據(jù)采集?
王小川:圖像模型對于高質(zhì)量的數(shù)據(jù)依賴度更大,因?yàn)橛懈呔鹊膱D像數(shù)據(jù),很多都是院內(nèi)收集的。今天的語言模型是知識Knowledge,更多的就是論文里面的,醫(yī)生只是把這些知識變成科研題目,就是從專利庫變成論文。
可能有個(gè)反常識的地方,大家覺得需要依賴院內(nèi)的高質(zhì)量數(shù)據(jù),把醫(yī)院的高質(zhì)量數(shù)據(jù)轉(zhuǎn)化成知識,然后在論文里面萃取這些信息才是關(guān)鍵。這跟上一代的圖像方法是不一樣的,圖像不是搬出來的,知識是搬出來的。
Q:聯(lián)影也提到多模態(tài)數(shù)據(jù)很難出院,怎么看院內(nèi)數(shù)據(jù)的處理?
王小川:主要是兩個(gè)要點(diǎn):一個(gè)是技術(shù),一個(gè)是場景。我們認(rèn)為未來巨大的增量是在院外,不在院內(nèi),院內(nèi)更多的是做手術(shù)、執(zhí)行、掛水的地方,Planning就在院內(nèi),不是幫醫(yī)生在院內(nèi)搞事兒,空間本身是有限的,我們并不鼓勵(lì)把場景放在院內(nèi),寫個(gè)病歷、做個(gè)質(zhì)控,這些都不是未來的主流方向。
最重要的是幫到患者,隔山打牛。今天大家總是講數(shù)據(jù)不夠,投了上千億,去年發(fā)布了500款醫(yī)療垂直大模型,但今天大家有感覺嗎?美國已經(jīng)把兩件事情做完了:OpenEvidence,很多醫(yī)生都在用這款產(chǎn)品輔助診療,讓安全性和準(zhǔn)確度提升了很多,ChatGPT馬上就要接入健康數(shù)據(jù),2.3億人很快就可以直接受益。
原來提到的數(shù)據(jù)范式、場景范式都會有點(diǎn)問題,已經(jīng)運(yùn)行了一年,繼續(xù)運(yùn)行又能怎么樣?我們強(qiáng)調(diào)AI直接產(chǎn)生作用是在院外,上一代是以醫(yī)生為中心的服務(wù)模式,距離AI的本質(zhì)是遠(yuǎn)的。我們強(qiáng)調(diào)技術(shù)紅利是發(fā)生在智力上,不是發(fā)生在圖象識別上,圖象識別不代表智力,只是做題家手里的活兒。
Q:智能的上限多了以后,某種程度上可以彌補(bǔ)數(shù)據(jù)整體不足的問題?
王小川:智力是本質(zhì)問題,不是彌補(bǔ)數(shù)據(jù)不足。數(shù)據(jù)很重要,但在大模型行業(yè)沒有成功案例,大家都搞錯(cuò)了。我們沒有公開這樣講,要是這樣講的話得罪人太多了。大家都在提數(shù)據(jù)很重要,但只是傳閱的概念,沒有人做成功過。
Q:AI醫(yī)療的主要場景是在院外,不是在院內(nèi),這是什么邏輯?
王小川:我覺得那個(gè)院士有他的道理,就是屁股決定腦袋,他的位置在那里,但醫(yī)療是為誰服務(wù)?最終還是要為患者服務(wù),所以需要局部最優(yōu)解。根本問題是醫(yī)生不夠,醫(yī)學(xué)不發(fā)達(dá),患者是受益方,但沒有決策權(quán),居家服務(wù)太少。我們老是說患者是自己健康的第一責(zé)任人,但AI都是幫醫(yī)生的,不是幫患者的,總是隔山打牛,這樣對嗎?
我們覺得自己不行,所以要求醫(yī)生賦能給我們。最終總是要服務(wù)個(gè)人,因?yàn)獒t(yī)生的利益也不太一致,醫(yī)生主要就是寫論文,這是他們的主要訴求。OpenEvidence確實(shí)讓醫(yī)療效果提升了很多,因?yàn)樗麄兞?xí)慣用輔助系統(tǒng),中國醫(yī)生不習(xí)慣,因?yàn)楹苊Γ瑳]有時(shí)間去用,而且用不用對于他們評職稱寫論文有幫助嗎?
Q:剛才提到數(shù)據(jù)到底重不重要,我想提幾個(gè)根上的問題:新一代模型的訓(xùn)練主要是從哪幾個(gè)方面提升水平和能力?你們肯定是需要數(shù)據(jù)的,到底需要哪些數(shù)據(jù)?量級和通用大模型有什么差別?百川數(shù)據(jù)獲取主要來源是哪些?
王小川:我們要發(fā)展新醫(yī)學(xué),AI for Science需要大量數(shù)據(jù),院內(nèi)也不夠,所以需要自己采集和創(chuàng)造數(shù)據(jù)。
Q:現(xiàn)在你們采用哪些數(shù)據(jù)訓(xùn)練?醫(yī)院的還是患者的?
王小川:核心不是院內(nèi)數(shù)據(jù),而是評價(jià)系統(tǒng),DeepSeek也沒有天天說自己的數(shù)據(jù)是怎么來的,所以就是好的定義和訓(xùn)練方法的準(zhǔn)備。我們認(rèn)為讓醫(yī)生幫助我們生產(chǎn)模擬患者的評價(jià)體系,跟數(shù)據(jù)訓(xùn)練模型是兩件事情。
Q:醫(yī)生標(biāo)注數(shù)據(jù)的工作量很大,因?yàn)獒t(yī)生本身也很忙。
王小川:是的,之前GPT是找了262個(gè)國家做到HealthBench的評測集,我們也有百川SCAN的評測集,系統(tǒng)自己就會知道怎么改進(jìn),范式?jīng)Q定怎么使用這些數(shù)據(jù)。
Q:剛才提到動(dòng)態(tài)反饋這件事情,現(xiàn)在大家也都有看到,OpenAI很快就要開放醫(yī)療檔案,國內(nèi)阿福也有在做。雖然你們已經(jīng)有了很好的方法,建立起了模型體系,但會不會因?yàn)閿?shù)據(jù)量的差距讓模型迭代相對沒有那么快?
王小川:有了個(gè)人檔案當(dāng)然沒有問題,但不是數(shù)據(jù)就可以形成訓(xùn)練阿福的模型,檔案就是更加個(gè)性化,跟用戶多少?zèng)]什么關(guān)系,用戶更多以后至少團(tuán)隊(duì)能夠通過問答推動(dòng)產(chǎn)品改進(jìn),就像以前的產(chǎn)品一樣,通過用戶反饋進(jìn)行改進(jìn)也是技術(shù)層面的事情,所以有機(jī)會優(yōu)化產(chǎn)品,但不代表能夠推動(dòng)模型的進(jìn)化。
今天的Gemini發(fā)展得非常快,沒有那么大的數(shù)據(jù)量也做起來了,所以還是技術(shù)驅(qū)動(dòng)。今天有些東西是被證明是真的,有些東西是被證偽的。阿福更多的是做生態(tài),有了用戶以后,這是最容易獲得的紅利收益,不是技術(shù)本身。
Q:百川接下來的路想怎么走?
王小川:我們跟阿福不太一樣,阿福還是泛健康的概念,健康這個(gè)詞就是很泛的概念,居家至少能夠取代家庭醫(yī)生。
Q:剛才提到C端產(chǎn)品接下來的路線,之前你也講,百川第一天就想做To C,目前To C的商業(yè)化路徑是怎么規(guī)劃的?
王小川:幫助患者產(chǎn)生輔助決策的價(jià)值就是有意義的,因此我們可以向患者收費(fèi),也可以形成服務(wù)包,后面的醫(yī)療資源和藥械就以服務(wù)包的形式收費(fèi)。我倒不擔(dān)心商業(yè)模式本身,確實(shí)是要過了醫(yī)療這個(gè)門檻,為用戶創(chuàng)造價(jià)值,不管直接收費(fèi)還是生態(tài)收費(fèi)都是很容易的事情。
Q:大概會在什么時(shí)間實(shí)現(xiàn)?
王小川:今年上半年就會開始入場,之前停頓了一段時(shí)間,確實(shí)不是只賺醫(yī)院的錢或者只賺醫(yī)生的錢。
Q:To C屬于比較偏嚴(yán)肅性的,核心是嚴(yán)肅性醫(yī)療涉及診療由誰負(fù)責(zé),怎么看這個(gè)問題?
王小川:現(xiàn)在的法規(guī)要求診斷結(jié)論和治療方案必須由醫(yī)生來給出,我們短期內(nèi)不會去碰這條紅線,可以輔助醫(yī)生把診療做得更好,但會有一個(gè)痛點(diǎn)。我們主打的就是讓患者能夠明明白白看醫(yī)生,縮短醫(yī)生和患者之間的Gap,醫(yī)生沒有擅長給患者做更多的溝通、講解,沒法在報(bào)告單抽取相關(guān)的內(nèi)容。
最后的診療決策不是一件事情,可能是看兩個(gè)方案選哪個(gè),這個(gè)決定是患者來做,我們會幫助患者做好。醫(yī)生要讓出決策權(quán),保守方案和激進(jìn)方案應(yīng)該選哪個(gè)?可以讓患者自己選,最后患者會對自己的健康更負(fù)責(zé),因?yàn)榛颊呤亲约航】档牡谝回?zé)任人。我們不做決策,而是建議患者做決策。
Q:產(chǎn)品最終To C,想把決策權(quán)從醫(yī)生手里讓渡到患者手里,現(xiàn)在M3的能力已經(jīng)可以達(dá)到這樣的水平了嗎?還是醫(yī)療模型要往更強(qiáng)的能力迭代,才能支撐起來這個(gè)愿望?
王小川:需要建立產(chǎn)品形態(tài)和信任。
Q:拋開現(xiàn)有的法規(guī),必須要有醫(yī)院來開處方,要是To C的話,患者Prompt能力并沒有專業(yè)工程師那么強(qiáng),你們會怎樣挖掘足夠的患者信息支撐最終提供的診斷?
王小川:搜集足夠的信息就可以給出好的建議和服務(wù),我們的核心能力就是端到端嚴(yán)肅問診,以前的模型就是“你是一位資深的醫(yī)生”,但想問的和該問的不是一件事情。我們是跟著醫(yī)院的體系在評測中已經(jīng)超過了今天醫(yī)生的提問能力,以前的模型是做不到的。很多問題看著很對,其實(shí)是不符合的,現(xiàn)在患者平時(shí)的表達(dá)就被AI管起來了,感冒以后AI會很清楚身體系統(tǒng),不會被帶到溝里面。
未來的產(chǎn)品場景也在規(guī)劃中,要是去兩個(gè)醫(yī)院,每個(gè)醫(yī)院給的治療方案不一樣,應(yīng)該聽誰的?我們把相關(guān)方案都放進(jìn)來,AI可以幫助分析,找到更適合自己的方案,有的是為了讓生存期更長,有的是為了減少痛苦,有的是為了成本更低,能夠把方案講得很清楚,就是為什么這么設(shè)計(jì),怎么才能適合自己,醫(yī)院是打死也做不了的。
Q:要是做To C產(chǎn)品的話,早期怎么培養(yǎng)用戶心智?因?yàn)槭忻嫔嫌泻芏噌t(yī)療,阿福泛健康也被當(dāng)作醫(yī)生來問。
王小川:需要三個(gè)事情發(fā)生:要有一定的廣告宣傳投入,我們也會適量增加。要有醫(yī)生的認(rèn)可,阿福跟我們的路線不一樣,老醫(yī)生都是無感的,我們希望醫(yī)生和患者是一體兩面,共享一款產(chǎn)品,要讓專家點(diǎn)頭,而不只是患者鼓掌。產(chǎn)品做好以后確實(shí)能夠取得一定的口碑效應(yīng),GPT可以發(fā)現(xiàn)自己多年以前誤診的對象,就是從接口說話。
Q:你們商業(yè)化做得怎么樣?
王小川:今天上市的兩家是踩在了通用模型的技術(shù)紅利和國家對科技強(qiáng)國扶持的基礎(chǔ)上。AI醫(yī)療也是同樣,屬于今天大模型競爭的重要力量。可以說從技術(shù)范式再到國計(jì)民生的意義,從通用AI的概念來說更早一些,未來我們也會走到上市這條道路上。
Q:OpenAI商業(yè)路線和產(chǎn)品路線是To C和To B的區(qū)別,百川好像兩條路都在走,怎么評價(jià)不同的選擇?
王小川:美國是To C和To B都可以干,但在中國To C比To B更好。
Q:產(chǎn)品形態(tài)具體是怎樣的?
王小川:就是醫(yī)生醫(yī)療版本的大模型,非醫(yī)療的問題就不答了,因?yàn)榻尤牖颊邤?shù)據(jù)以后就會變成子產(chǎn)品放在ChatGPT里面,我們做的就是這樣一個(gè)對標(biāo)的板塊。
雖然是同一個(gè)產(chǎn)品,但由于醫(yī)生和患者的身份不同,給出的結(jié)果是不一樣的。醫(yī)生版更像OpenEvidence,更加強(qiáng)調(diào)循證,就是一篇文章的一番話引用在什么地方,ChatGPT引用的有些文章是不存在的,只是幻覺,但在我們的系統(tǒng)中100%存在。
醫(yī)生和患者之間會有區(qū)別,醫(yī)生可以接受各種專業(yè)答案,給到患者幾個(gè)不同的點(diǎn)。必須足夠看得懂,讓患者理解專業(yè)語言,翻譯成患者能懂的內(nèi)容,同樣保留循證的能力。必須讓自己能夠做決策,給的信息足夠充分,因?yàn)獒t(yī)生都是訓(xùn)練過的,知道應(yīng)該怎么辦,也要給患者這種決策能力。
患者模式就會強(qiáng)調(diào)補(bǔ)充信息,進(jìn)入啟發(fā)式端到端的問診能力,醫(yī)生不會這樣,因?yàn)獒t(yī)生有自己提問的方法。在這種情況下,我們和OpenEvidence的區(qū)別在于,OpenEvidence只是服務(wù)于醫(yī)生,我們是可復(fù)數(shù)、可懂、可決策、可行動(dòng)、能夠服務(wù)到患者,這樣的產(chǎn)品定位在全球是獨(dú)一無二的。
Q:現(xiàn)在國內(nèi)醫(yī)療AI賽道越來越火,你們怎么做好自己的護(hù)城河?
王小川:護(hù)城河分為三個(gè)部分:模型做得足夠好,今天屢試不爽就在于模型領(lǐng)先一代,就像教育的好學(xué)區(qū),我們的領(lǐng)先度是可以保證的。解決問題的切入點(diǎn),我們更愿意切入嚴(yán)肅、高價(jià)值的場景。
大廠和創(chuàng)業(yè)公司不一樣,畢竟有職業(yè)團(tuán)隊(duì),需要的是更加安穩(wěn)的方案,大創(chuàng)新靠小廠,小創(chuàng)新靠大廠,必須切入我們認(rèn)為有高價(jià)值的事情,共識不是我們優(yōu)先的突破點(diǎn),而大廠更多的是注重共識,路線圖和產(chǎn)品形態(tài)是不一樣的。
Q:你們產(chǎn)品的核心是解決哪一部分人群對于醫(yī)療認(rèn)知的Gap?不同人群的Prompt能力有差異,為什么一個(gè)專業(yè)問題,醫(yī)生講不明白,你們的產(chǎn)品能夠講明白?產(chǎn)品設(shè)計(jì)有什么巧思?
王小川:我們需要患者更好地表達(dá),甚至老年人的話可能是家屬幫助在做,缺少一種醫(yī)學(xué)的Knowhow,患者和醫(yī)生溝通也需要有表達(dá)能力,所以要把自己的問題說清楚,把你要什么表達(dá)出來,這是一個(gè)基礎(chǔ)?,F(xiàn)在ChapGPT可以把一個(gè)東西講得讓7歲的小孩子都明白,可以讓一個(gè)嚴(yán)肅的文檔夸張一點(diǎn)、友好一點(diǎn),所以分析問題、講清楚的能力是大模型不缺的。
Q:現(xiàn)階段就是幫助患者建立輔助決策的價(jià)值,你們突破到多少用戶規(guī)模就會覺得輔助價(jià)值被驗(yàn)證了?從價(jià)值驗(yàn)證到價(jià)格成立大概需要多久?需要經(jīng)歷哪些步驟?
王小川:我們沒有一個(gè)完整的判斷,不在我們的計(jì)劃中,要是真正有10萬人在用,我們覺得就已經(jīng)證明了讓渡權(quán)利的價(jià)值。
Q:剛才你們提到最大增量是在院外,現(xiàn)在醫(yī)療大模型還面臨技術(shù)端需要走在法律法規(guī)政策紅線的前面,院外的哪些場景能夠最終落地?大模型要是出現(xiàn)誤診,責(zé)任在哪里?
王小川:今天我們也不會越過紅線,不會去做本身的診斷或者給出處方,但可以做輔助工作,所以我們在紅線內(nèi)已經(jīng)產(chǎn)生了巨大的價(jià)值,能夠推動(dòng)醫(yī)療改革的加速。美國猶他州已經(jīng)開始用AI開藥了,其實(shí)可以放開更多的AI能力,只是看能否應(yīng)用于患者而不是躲在醫(yī)生背后。一旦有了體感,就會形成行業(yè)內(nèi)的滾雪球效應(yīng)。
Q:是不是就像自動(dòng)駕駛L2、L3那樣,權(quán)責(zé)更加清晰就可以實(shí)現(xiàn)AI醫(yī)生?
王小川:我們的思考并不是把醫(yī)生取代,做手術(shù)、做查體、做各種各樣的康復(fù)診療都需要真實(shí)醫(yī)生,但AI可以填補(bǔ)空白。就像剛才講的溝通、提醒、通過給出建議輔助患者決策,這些都是空白,我們大有空間可干。
Q:剛剛進(jìn)入2026年,各家廠商都在上市,宣布自己的融資情況,你們怎么評價(jià)百川現(xiàn)在的狀態(tài)?去年做了哪幾件比較重要的事情?今年的計(jì)劃是什么?
王小川:百川去年最重大的就是組織管理專注醫(yī)療,發(fā)布M2和M2Plus,把基礎(chǔ)的醫(yī)療增強(qiáng)概念穩(wěn)固,把循證概念樹立起來,除了推理能力以外就是循證和會問診,去年做了很多積累,M2和M2Plus,包括今年的M3都是在去年的基礎(chǔ)上夯實(shí),我們在腫瘤領(lǐng)域也開了一條線,就是把最難的醫(yī)學(xué)皇冠明珠做好,所以就是模型本身的進(jìn)步。今年的核心就是模型迭代和落地,幫助患者做決策的能力和居家陪伴的健康看護(hù)能力,我們都會進(jìn)一步落地,醫(yī)療AI也是肉眼可見的未來最重要的應(yīng)用場景。
Q:你們做的事情是造醫(yī)生,不是輔助AI,在什么情況下能夠真正實(shí)現(xiàn)跟AI聊天覺得不是輔助的作用,而是真正的醫(yī)生?
王小川:造醫(yī)生就是因?yàn)獒t(yī)療供給不足,我們的第二個(gè)產(chǎn)品已經(jīng)可以當(dāng)成院外醫(yī)生來看了。
Q:之前提到現(xiàn)在OpenAI也在進(jìn)軍醫(yī)療領(lǐng)域,你們在中國做AI醫(yī)療本身的優(yōu)勢和劣勢是什么?美國不同醫(yī)院對于個(gè)人隱私數(shù)據(jù)保護(hù)得非常嚴(yán)謹(jǐn),相互之間數(shù)據(jù)不通,不知道國內(nèi)AI醫(yī)療有沒有自己的優(yōu)勢?
王小川:你是指跟美國相比嗎?我覺得跟美國相比的話,美國更加市場化,而且美國的醫(yī)生數(shù)量是夠的,中國廣大地緣反而更缺優(yōu)質(zhì)的醫(yī)生。你在北京可能沒感覺,北京的資源太豐富了,但那些五年規(guī)培的村醫(yī)只有26%,空白的地方是更多的。中國政府要是想明白了怎么辦,可能會有很大的助力。
Q:你們產(chǎn)品智力的部分其實(shí)來自公開的論文,就是類似知識圖譜,用醫(yī)生做標(biāo)注提高模型的診斷準(zhǔn)確率,基于我的理解,是不是有更好的一倆數(shù)據(jù)庫、更優(yōu)的醫(yī)院數(shù)據(jù)就能夠拿到比你們更高的診斷準(zhǔn)確性?
王小川:算法是核心,醫(yī)生主要是驅(qū)動(dòng)評測體系。
Q:腦卒中領(lǐng)域也有跟你們相同的產(chǎn)品,現(xiàn)在已經(jīng)遇到了瓶頸,衛(wèi)健系統(tǒng)也有質(zhì)量更優(yōu)的數(shù)據(jù)。
王小川:大家總是把數(shù)據(jù)當(dāng)回事,懂這件事、有錢做這件事才是關(guān)鍵,市面上有500多個(gè)垂直醫(yī)療模型,我認(rèn)為他們都不知道什么叫作做模型,所以不要被他們影響。
Q:你們場景的偏向是怎樣的?相比阿福泛健康的打法,性價(jià)比比較高,面向全部人群,不管智力能不能看懂醫(yī)學(xué)文獻(xiàn),能不能和真人交流,要是你們花了很多成本做循證,很有可能拿不到真正肯花錢的用戶。
王小川:我們沒有什么前輩,因?yàn)槲覀兪窃谧鯰o C。解決一個(gè)問題要有人買單,因?yàn)獒t(yī)療最大的問題就是決策方和使用方是不統(tǒng)一的,可能卡在這個(gè)問題里面。把一個(gè)好產(chǎn)品交給了一個(gè)利益不一致的人使用,不是循證成本高不高,而是是否能夠觸達(dá)目標(biāo)人群。達(dá)摩院之前宣傳得很好,就是胰腺癌的屏掃CT,但醫(yī)院干嘛要這種便宜的東西?找不到買單方。
Q:你們有病種和場景的偏向嗎?
王小川:目前的做法基本上就是全覆蓋,重點(diǎn)放在兒科、慢病和腫瘤領(lǐng)域。
Q:中國醫(yī)療最大的支付方是醫(yī)保,不是患者,借由中間方就是醫(yī)院,你們規(guī)劃的宏大愿景直接面向患者,患者本身之所以沒有決策權(quán)就是因?yàn)椴皇亲畲蟮馁I單方,要是可以形成規(guī)模的買單方就是在電商平臺,你們的目標(biāo)買單方是誰?
王小川:現(xiàn)在我們在跟一些藥械溝通,他們都非常強(qiáng)調(diào)在院外,并不是收在院內(nèi),大家在這一點(diǎn)上是同頻的,更多的是讓C端受益方成為決策方和買單方,做到三個(gè)統(tǒng)一。
Q:就是要把患者吸引過來,然后讓藥械企業(yè)買單?
王小川:也有可能打包都讓患者買單。
Q:這一部分有其他的廠家在跟,而且已經(jīng)比較落地了,你們比他們的優(yōu)勢是什么?
王小川:技術(shù)更好,確實(shí)能夠把病搞明白。
Q:你們現(xiàn)在主要的監(jiān)管方是衛(wèi)健委嗎?
王小川:是的。
Q:跟你們合作的主要醫(yī)院是哪家?
王小川:兒童醫(yī)院,現(xiàn)在也在和東腫合作,就是以藥廠的身份跟他們聯(lián)合研發(fā),進(jìn)入Clinical Trial,合同已經(jīng)簽完了,但發(fā)現(xiàn)還沒有人注冊。
Q:你們的人去醫(yī)院還是醫(yī)院的人來這里?
王小川:都有,他們也有人駐扎在我們這里,副院長帶隊(duì)。
Q:會不會出海?
王小川:肯定會出海,不能出海的醫(yī)療公司不是好公司。
Q:要是有個(gè)超過中國最頂尖兒科醫(yī)生的模型,你們會用來干嘛?你們比中國最頂尖的兒科醫(yī)生厲害。
王小川:我們不會講比他們厲害,比醫(yī)生厲害這件事情在某些維度上一定是這幾年在迅速達(dá)到的,目的是讓大家更健康。
Q:你們會重點(diǎn)在一線嗎?還是在二三線、四五線?
王小川:我們會試探,但嚴(yán)肅場景還是得從一線開始。
Q:你們在安全和加密方面的等級是怎么做的?因?yàn)橛脩粢矔ε伦约旱臄?shù)據(jù)被泄露。
王小川:我們在安全能力上肯定有做這些基礎(chǔ)工作,也是我們的一種承諾,你們的數(shù)據(jù)只是為個(gè)人服務(wù),內(nèi)部的文化也要小心,內(nèi)部員工都要尊重這件事情,就是文化和技術(shù)能力都要做到。公司越大,用戶就會越信任,要是泄露你的數(shù)據(jù),公司就掛了,他們就沒有動(dòng)力干這個(gè)活了,因?yàn)閿?shù)億人的數(shù)據(jù)都在里面。
Q:如果攻擊者把這些數(shù)據(jù)拿到了呢?
王小川:攻擊者可能會去攻擊銀行這種地方,他們要這些數(shù)據(jù)干什么?我是不會要這些數(shù)據(jù),沒什么用。
Q:張文宏拒絕把AI引入自己醫(yī)院的系統(tǒng),因?yàn)橐肁I以后,醫(yī)生的訓(xùn)練完全改變了,沒有經(jīng)過疾病診斷系統(tǒng)訓(xùn)練的實(shí)習(xí)醫(yī)生,通過AI也可以得出跟自己一樣的結(jié)論,如果醫(yī)生缺乏這種系統(tǒng)性的訓(xùn)練,無法鑒別AI給出的結(jié)論是對是錯(cuò)。如何看待引入AI以后產(chǎn)生的矛盾?
王小川:專業(yè)領(lǐng)域都會遇到這種問題,人與機(jī)器共生以后,相不相信AI會降低自己的能力?能駕馭AI的醫(yī)生就是好醫(yī)生,思考如何幫助患者才是正道。
Q:剛才您提到今年會有新的產(chǎn)品發(fā)布,是不是面向C端,上線初始會免費(fèi)是嗎?
王小川:剛開始肯定會有免費(fèi)。
Q:你們最開始為什么選擇兒科?
王小川:我們的第一個(gè)切入點(diǎn)其實(shí)是院外,不想往院內(nèi)去做,希望做的是比較輕的病。兒科屬于長期騷擾你,但沒有什么大的問題,就是從焦慮感出發(fā),之后我們就會逐步擴(kuò)展到腫瘤這種最核心的疾病。
Q:會不會繼續(xù)在兒科重點(diǎn)投入?
王小川:慢性病、兒科和腫瘤,“一老一小”。
Q:你們會不會做硬件?
王小川:目前正在做睡眠。
Q:按照百川對于模型訓(xùn)練的探索,未來有沒有可能涌現(xiàn)出某種Idea,能夠解決目前人類解決不了的疑難雜癥?
王小川:現(xiàn)在來看是不能,就是把現(xiàn)有知識學(xué)會,并不是創(chuàng)造新知識。醫(yī)學(xué)主要是靠經(jīng)驗(yàn)總結(jié),不是基礎(chǔ)發(fā)現(xiàn),未來要是有長期的數(shù)據(jù)挖掘還是有機(jī)會的。
Q:技術(shù)是百川非常核心的差異點(diǎn),最近你提到和醫(yī)生合作非常必要,但不能只根據(jù)醫(yī)生的需求確定技術(shù)的迭代方向,M1、M2、M3主要是沿著怎樣的方向迭代?
王小川:我們主要的定義是什么叫作模型的好,就是從技術(shù)推理走向臨床需求,既需要足夠懂AI,也需要在具體場景跟醫(yī)生溝通?,F(xiàn)在我們主要強(qiáng)調(diào)四個(gè)重要方向:醫(yī)療本身的推理能力,能夠給出正確的解決,減少幻覺,醫(yī)療搜索或者循證能力,就是從專業(yè)的知識庫抽取證據(jù),包括臨床指南級別的基礎(chǔ)科研,甚至是監(jiān)管的證據(jù)準(zhǔn)確性足夠高,搜集信息的能力就是以問診為核心。M3發(fā)布以后,四個(gè)方向已經(jīng)補(bǔ)全了。
Q:很多醫(yī)療問題不只是技術(shù)的問題,你們在技術(shù)之外,有沒有和監(jiān)管機(jī)構(gòu)建立信任?
王小川:會有,我們跟三甲醫(yī)院、基層醫(yī)院都有溝通。我們在藥廠都有臨床試驗(yàn),沒有哪個(gè)互聯(lián)網(wǎng)AI公司在干這個(gè)。我們就是以藥廠的身份和醫(yī)院合作,把我們的產(chǎn)品當(dāng)作藥物驗(yàn)證安全性和臨床性,都會有Clinical Trial。
Q:30億好像不夠燒。
王小川:夠燒,要看是什么標(biāo)準(zhǔn)。我們是患者的Companion,可能一款藥十年十億美金,成功率10%,那肯定不夠燒,但美國FDA正在鼓勵(lì)一個(gè)Digital Companion指導(dǎo)用藥,藥效就會提升。一款老藥的有效性是70%,通過算法可以提到75%,相當(dāng)于發(fā)明一款新藥,既不需要十年十億美金也不會成功率只有10%,就是范式變化帶來的結(jié)果。我們就是藥物伴隨,F(xiàn)ollow-up。
Q:要讓藥企為服務(wù)買單?
王小川:有可能,我們的群里面會拉五個(gè)人,有醫(yī)生,有護(hù)士,有AI,有患者,有患者家屬。
Q:相當(dāng)于CRC的工作。
王小川:類似,我們要告訴患者那是AI,雖然很像人,為了讓患者愿意主動(dòng)跟AI去聊,其他的真人還要裝扮成AI的樣子。
Q:你們是從哪個(gè)腫瘤開始做?
王小川:應(yīng)該是從肺開始做起。
Q:AI屬于一個(gè)黑盒,會不會有額外的難度?
王小川:AI其實(shí)是有思維鏈的,可以真正像人一樣思考。要看危害性有多大,有效性有多大。
Q:之前你很少發(fā)聲,為什么現(xiàn)在愿意把大家聚在一起聊一聊?
王小川:就是跟大家重新建立連接,之前被罵慘了。
Q:可能因?yàn)樾袠I(yè)到了爆發(fā)的節(jié)點(diǎn)。
王小川:我們從第一天開始就想做醫(yī)療,但被裹挾以后干了很多醫(yī)療以外的事情,現(xiàn)在吸取教訓(xùn),每個(gè)新人都要直接面試,看一看是不是想做醫(yī)療。
Q:你們?yōu)槭裁聪胱鲠t(yī)療?不是什么好干的事情。
王小川:生命本身就很有意思,規(guī)律已經(jīng)很顯著了。原來我是學(xué)計(jì)算機(jī)的,研究的是高強(qiáng)度計(jì)算,搞的是天氣預(yù)報(bào),但我覺得天氣預(yù)報(bào)太不靠譜了,有一點(diǎn)變化結(jié)果就會不同。老板問我,那你想干什么?我說就搞人類基因組計(jì)劃吧。
真的是從2000年開始搞基因拼接算法,發(fā)現(xiàn)這個(gè)比天氣預(yù)報(bào)還天氣預(yù)報(bào),更復(fù)雜更混沌,但結(jié)論又更清楚。一個(gè)細(xì)胞有細(xì)胞膜、細(xì)胞核,十個(gè)月以后受精卵就會變成嬰兒,跟爸媽長得很像。
我當(dāng)時(shí)的好奇心就在于生命比天氣預(yù)報(bào)還復(fù)雜,憑什么背后有規(guī)律?所以花時(shí)間去研究,總想找到背后的數(shù)學(xué)模型,現(xiàn)在就需要數(shù)據(jù)驅(qū)動(dòng),語言模型能夠解決智力問題,這就是我最初的動(dòng)力。理論不能解釋現(xiàn)象,你能說現(xiàn)象不對嗎?只有理論不對,所以這是特別有意思的話題。這個(gè)時(shí)代已經(jīng)很好了,前面二十年干互聯(lián)網(wǎng),這二十年就干人類基因。(作者|李程程,編輯|李玉鵬)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論