一、頂峰那天

2023年12月7日,Sarvam AI宣布完成融資。

4100萬美元,種子輪加A輪合并計算。領(lǐng)投方是Lightspeed,Peak XV和Khosla Ventures跟投。按照TechCrunch的說法,這是印度AI創(chuàng)業(yè)公司在這個階段完成的最大單筆融資。

公司成立剛好五個月。員工總數(shù)約18人。

沒有人知道這家公司之前做過什么——它是從隱身模式直接跳出來宣布融資的。但投資人顯然不需要更多時間判斷。Peak XV和Lightspeed在種子輪時不到一周就拍了板。Khosla Ventures創(chuàng)始人Vinod Khosla在聲明里說:"我們需要像Sarvam這樣的公司,為印度、在印度構(gòu)建AI的深度能力。"

讓他們下這么快決定的,是兩個創(chuàng)始人的簡歷放在一起之后產(chǎn)生的化學反應(yīng)。

Pratyush Kumar,IIT Bombay本科,ETH Zurich博士,之后在IBM Research和Microsoft Research做研究員,再后來回到IIT Madras做教職。他在學術(shù)圈發(fā)表了89篇論文,但更重要的履歷是另一個身份:AI4Bharat聯(lián)合創(chuàng)始人。這是一個專注于印度語言AI的開源研究計劃,背后站著印度數(shù)字基礎(chǔ)設(shè)施的主要締造者Nandan Nilekani

Vivek Raghavan,IIT Delhi本科,卡內(nèi)基梅隆博士。畢業(yè)后在EDA行業(yè)做了整整二十年,做到Synopsys的副總裁級別。然后他做了一個不太符合職業(yè)邏輯的選擇:回印度,去UIDAI——那個負責Aadhaar身份證系統(tǒng)的政府機構(gòu)——做生物識別基礎(chǔ)設(shè)施,一做就是十二年。Aadhaar今天覆蓋了超過十億印度人,是全球最大規(guī)模的數(shù)字身份系統(tǒng)之一。Raghavan是這套系統(tǒng)底層技術(shù)的參與建設(shè)者。

兩個人在AI4Bharat相遇,2023年8月一起創(chuàng)辦了Sarvam。

他們看到的機會,和ChatGPT在2022年11月出現(xiàn)有直接關(guān)系。不是因為要復制ChatGPT,而是因為ChatGPT的出現(xiàn)讓一件事變得顯而易見:語言模型正在成為新的基礎(chǔ)設(shè)施,而這套基礎(chǔ)設(shè)施如果只懂英語,對一個有二十二種官方語言、大多數(shù)人口不以英語為母語的國家來說,意味著一種結(jié)構(gòu)性的排斥。Raghavan在融資公告里說了一句話:"我親眼見證過在基礎(chǔ)層創(chuàng)新、并在人口規(guī)模上部署的巨大價值。"他指的不是抽象的愿景,而是Aadhaar。

這就是VC在不到一周內(nèi)決定投資的原因:這不是兩個在硅谷學了幾年深度學習就回來創(chuàng)業(yè)的人,而是兩個真正在印度數(shù)字基礎(chǔ)設(shè)施最深處工作過的人,在AI范式切換的時間節(jié)點上,做了一個在他們背景下極為自然的選擇。

融資公告發(fā)出之后,Sarvam承諾的事情很簡單:造一個印度自己的AI。

但"印度自己的"這幾個字,比他們預(yù)想的要難兌現(xiàn)得多。


二、第一個滑坡

拿到錢之后,Sarvam的第一步走得相當穩(wěn)。

2024年2月,微軟CEO納德拉訪印主持AI Tour,宣布將與Sarvam合作開發(fā)印度語音AI工具,并將Sarvam的印度語音大模型上線Azure。2024年6月,世界經(jīng)濟論壇把Sarvam列入Technology Pioneers 2024名單——全球100家,印度10家,Sarvam在列。2024年10月,公司發(fā)布了第一個公開模型Sarvam-1:20億參數(shù),支持10種印度語言,在部分印度語言任務(wù)上的表現(xiàn)超過了規(guī)模更大的全球模型。

媒體的描述越來越順滑:印度AI的國家隊、主權(quán)模型的希望、下一個DeepSeek。

但有一件事,在這段時間里悄悄積累了壓力。

2025年4月26日,印度政府在67家申請機構(gòu)中選中Sarvam,承接IndiaAI Mission的主權(quán)大模型項目。這是一筆條件特殊的交易:政府提供算力——4096塊NVIDIA H100,使用期六個月,托管在Yotta數(shù)據(jù)中心——換取Sarvam的股權(quán)。算力的總賬單是2.47億盧比,政府補貼其中的9868萬盧比,剩余部分由Sarvam承擔。

合同的核心要求只有一條:模型必須從零訓練,完成后開源。

這是Sarvam第一次真正拿到足以訓練主權(quán)模型的算力。

按理說,接下來的動作應(yīng)該是埋頭去做那件一直承諾的事。

但2025年5月23日,Sarvam發(fā)布了Sarvam-M。

Sarvam-M是一個240億參數(shù)的混合模型,支持10種印度語言,針對數(shù)學和代碼任務(wù)做了強化訓練。發(fā)布公告里列了一串基準測試數(shù)字,措辭是它在"多項指標上與全球領(lǐng)先模型相當"。

問題不在于這些數(shù)字是否屬實。問題在于模型的底座:Sarvam-M建立在法國公司Mistral的開源模型Mistral Small之上。Sarvam的工程師在這個基礎(chǔ)上用印度語言數(shù)據(jù)做了大規(guī)模的后訓練。這是一種在資源受限條件下相當務(wù)實的選擇,業(yè)界也有不少成功先例。

但它不是從零訓練的主權(quán)模型。

名字里的"M",代表Mistral。這不是外界的解讀,而是媒體報道中普遍流傳的說法,Sarvam沒有公開否認。一家宣稱要造"印度自己的AI"、剛剛拿到政府主權(quán)模型合同的公司,交出的第一個成果,用的是法國人的底座。

邏輯上可以解釋:政府的H100算力4月底才到位,Sarvam-M的開發(fā)應(yīng)該在此之前已經(jīng)進行了相當長時間;發(fā)布Sarvam-M,是為了給開發(fā)者提供一個可用的工具,同時為從零訓練積累數(shù)據(jù)管道和后訓練經(jīng)驗;這是一個過渡性產(chǎn)品,不是最終答案。

這些解釋都站得住腳。但對于外部觀察者來說,一個從零訓練的承諾,和一個建立在Mistral底座上的發(fā)布,之間的距離是真實存在的。

而在接下來的二十四小時里,這個距離被放大到了所有人都看得見的程度。


三、23個下載量

2025年5月24日,Sarvam-M上線兩天后,Menlo Ventures投資人Deedy Das在X上發(fā)了一條帖子。

內(nèi)容不長,但足夠精準:印度最大的AI創(chuàng)業(yè)公司,估值十億美元的Sarvam,剛剛發(fā)布了它的旗艦大模型。上線兩天,Hugging Face下載量:23次。作為對比,他附上了另一組數(shù)字——兩名韓國大學生做的開源模型Dia,上個月的下載量:約20萬次。

最后一個詞:「丟人」。

這條帖子的轉(zhuǎn)發(fā)量在幾小時內(nèi)突破了印度科技圈的日常閾值。不是因為它特別刻薄——它確實刻薄——而是因為它把一個讓很多人隱隱不安的問題用數(shù)字說出來了:印度的AI,到底在哪里?

批評很快分成了幾個方向。

技術(shù)路線的質(zhì)疑最直接:基于Mistral微調(diào),在IndicLLM基準上的得分僅比原始Llama高出0.02,這是Sarvam值得驕傲的成績嗎?有開發(fā)者在X上貼出了對比數(shù)據(jù)——Sarvam-M 0.49,Llama原版 0.47,Gemma 0.48——然后問:這是"可感知的提升"嗎?

生態(tài)批評則更結(jié)構(gòu)性。有投資人指出,印度沒有了Koo這樣的本土社交平臺,Sarvam-M缺乏一個天然的早期用戶反饋場,下載量低不只是模型的問題,是整個生態(tài)的問題。也有人算了另一筆賬:印度H100極度稀缺,出口管制壓力持續(xù)存在,在這種資源約束下,Sarvam能交出一個可用的24B印度語言模型,本身就不是一件容易的事——用Hugging Face幾小時的統(tǒng)計數(shù)據(jù)來定性一個項目,是在刻意誤讀。

支持的聲音里最有分量的,來自Zoho聯(lián)合創(chuàng)始人Sridhar Vembu。他在X上寫道:"我們做過的每一個產(chǎn)品,沒有一個一開始就是爆款。"

但外界爭議如何,Sarvam的公關(guān)部門選擇了沉默。

真正開口的,是Pratyush Kumar本人。

他在X上轉(zhuǎn)發(fā)了批評帖子,寫了一句話:「很高興收到大家對Sarvam-M的反饋,請繼續(xù)。等我們開始訓練主權(quán)模型的時候,這些都會用上?!?/p>

這句話值得細讀。

他沒有辯解Sarvam-M的技術(shù)選擇,沒有解釋為什么用了Mistral底座,沒有反駁下載量數(shù)字,也沒有指責批評者不懂印度的資源限制。他做的事情是:把一次公開羞辱,原地轉(zhuǎn)化成了一個公開宣言。"等我們開始訓練主權(quán)模型的時候"——不是"如果",是"等"。不是"我們將來考慮從零開始",是"我們正在開始"。

這句話發(fā)出的時間是2025年5月25日,距離Sarvam-M發(fā)布過去了四十八小時。

此后的幾天里,Sarvam-M的Hugging Face下載量從23個反彈到334個,然后繼續(xù)緩慢爬升。不是什么了不起的數(shù)字,但至少證明最初的統(tǒng)計確實是因為Hugging Face數(shù)據(jù)延遲造成的偏差,而不是真實的用戶冷漠。

但數(shù)字的反彈并不是這個插曲真正的結(jié)局。

真正的結(jié)局,發(fā)生在八個月之后。屆時,曾經(jīng)在X上寫下「丟人」的那個人,會主動發(fā)文說:"I was wrong."

但那是后話。

2025年5月,Sarvam需要面對的現(xiàn)實是:政府的4096塊H100已經(jīng)就位,承諾從零訓練的合同已經(jīng)簽署,外界的嘲諷已經(jīng)變成了歷史記錄。接下來沒有別的路,只有一條。


四、4096塊GPU,重新開始

讓我們回到那筆交易本身。

4096塊NVIDIA H100,六個月使用期,托管在孟買郊外的Yotta數(shù)據(jù)中心??傎~單2.47億盧比,政府補貼其中的9868萬盧比。作為交換,Sarvam讓出了一部分股權(quán),訓練完成的模型必須開源。

這是印度政府在IndiaAI Mission框架下簽下的第一批主權(quán)模型合同之一。67家機構(gòu)參與申請,最終四家入選:Sarvam、Gnani.ai、Gan.ai和Soket AI Labs。Sarvam拿到的算力分配是四家中最大的一塊。

從外部看,這是一筆對Sarvam極為有利的交易:政府出錢補貼算力,Sarvam用政府的GPU訓練模型,訓練完開源,政府拿一點股權(quán)。性價比高得有些不真實。

但這筆交易的另一面,是一個約束。

開源意味著Sarvam不能把這個模型變成護城河。股權(quán)意味著政府成了Sarvam的股東,這個身份在任何國家都意味著某種隱性的期待和潛在的干預(yù)空間。算力是政府補貼的,但賬單的剩余部分——超過1.5億盧比——要Sarvam自己承擔。對一家年收入只有2910萬盧比的公司來說,這個數(shù)字意味著巨大的財務(wù)壓力。

更深的約束是時間。六個月,4096塊H100,目標是一個從零開始、在全球基準測試上有競爭力、同時精通印度語言的大模型。

在全球AI軍備競賽的背景下,這是一個聽起來有些冒險的賭注。2025年初,OpenAI的融資總額已經(jīng)超過180億美元。DeepSeek用相對有限的資源訓練出了震驚業(yè)界的R1,但它背后是中國成熟的AI基礎(chǔ)設(shè)施生態(tài)。Sarvam的114名員工,要在一個GPU基礎(chǔ)設(shè)施還不完善、訓練數(shù)據(jù)需要自己從頭整理的國家,完成這件事。

他們的回答,是從基礎(chǔ)設(shè)施開始做起。

Sarvam的工程師首先重新設(shè)計了tokenizer——這是大模型處理文字的最底層組件。現(xiàn)有的主流tokenizer對印度文字效率極低,處理梵文、泰米爾文、孟加拉文這類非拉丁字母體系時,需要消耗比英文多出數(shù)倍的token。Sarvam重新訓練的tokenizer,對印度文字的處理效率提升了三到四倍。這一步?jīng)]有任何可見度,不會出現(xiàn)在發(fā)布會的PPT上,但它決定了后續(xù)所有訓練的成本和效率。

數(shù)據(jù)管道是另一個自建的基礎(chǔ)設(shè)施。Sarvam在內(nèi)部搭建了一套評估數(shù)據(jù)質(zhì)量的工具,從頭整理訓練語料。最終用于預(yù)訓練的數(shù)據(jù)量,30B模型約為16萬億token。這些數(shù)據(jù)的收集、清洗、標注,全部在印度國內(nèi)完成。

強化學習基礎(chǔ)設(shè)施也是自研的。這個環(huán)節(jié)決定了模型在推理任務(wù)上的最終表現(xiàn),也是DeepSeek-R1讓業(yè)界重新注意到的核心技術(shù)路線。Sarvam選擇了同樣的方向,并把整套訓練流程完整地跑了一遍。

2025年下半年,Sarvam幾乎沒有對外發(fā)聲。

公司賬面上的年收入是2910萬盧比,折合約350萬美元。這是一個健康的早期創(chuàng)業(yè)公司收入,但在大模型訓練的語境下,這個數(shù)字說明Sarvam幾乎沒有任何財務(wù)緩沖。他們在用一家小公司的資源,做一件通常需要十倍體量才敢啟動的事情。

對外沉默的背后,是一支114人的團隊在訓練一個他們自己也不確定能否成功的模型。


五、14天,14次發(fā)布

2026年2月1日,Sarvam開始了一場密集的公開攻勢。

策略是刻意設(shè)計的:在India AI Impact Summit召開前的兩周,每天發(fā)布一個新產(chǎn)品或新功能,連續(xù)十四天不間斷。語音識別模型Saaras V3、文字轉(zhuǎn)語音模型Bulbul V3、文檔數(shù)字化工具Sarvam Akshar、多語言內(nèi)容創(chuàng)作平臺Sarvam Studio……一個接一個,節(jié)奏像節(jié)拍器一樣準確。

這個策略有一個明顯的參照對象:OpenAI在2024年末的"12 Days of OpenAI"發(fā)布攻勢。Sarvam把它改成了14天,因為峰會日期決定了窗口長度,但邏輯是一樣的——用密集的發(fā)布節(jié)奏制造輿論動能,讓媒體和開發(fā)者在峰會開幕之前就持續(xù)關(guān)注這家公司。

在峰會開幕前的密集發(fā)布期間,有一件事悄悄發(fā)生了。2月7日,Sarvam發(fā)布Bulbul V3語音合成模型當天,Deedy Das——那個在2025年5月寫下「丟人」的人——主動在X上發(fā)了一篇帖子,開頭三個字:"I was wrong."他說,他一年前認為訓練小型Indic語言模型的方向是錯的。"但他們做到了轉(zhuǎn)變。他們有Indic語言最好的語音合成、語音識別和文字識別模型,這是真正有價值的東西。"從「丟人」到"I was wrong",八個月,觸發(fā)轉(zhuǎn)變的不是大模型,而是一個語音產(chǎn)品。

2月16日,峰會開幕展覽日。

印度Modi總理在Bharat Mandapam的展覽區(qū)走了一圈。他在Sarvam的展臺前停下來,試戴了一副黑色眼鏡。這副眼鏡叫Sarvam Kaze,是Sarvam研發(fā)的AI智能眼鏡原型,支持十種以上印度語言的實時語音交互,Pratyush Kumar在X上發(fā)了一張Modi戴著眼鏡的照片,配文只有一句:「第一個試戴的人?總理?!?/p>

這張照片的傳播速度,超過了Sarvam過去兩年所有發(fā)布的總和。

2月18日,Research Symposium,Sarvam正式發(fā)布Sarvam-30B和Sarvam-105B。

兩個模型,都從零訓練。30B模型預(yù)訓練用了約16萬億token,支持32000 token的上下文窗口,MoE架構(gòu)下每次推理只激活約10億參數(shù),推理成本大幅壓縮。105B模型支持128000 token的超長上下文,在AIME 25數(shù)學競賽基準上得分88.3,使用工具后達到96.7;MMLU得分90.6;Math500得分98.6。

Pratyush Kumar在臺上說,105B在多項推理基準上超過了DeepSeek-R1——而DeepSeek-R1的總參數(shù)量是6000億,是Sarvam-105B的近六倍。

批評在幾小時內(nèi)又來了。

有人在X上翻出了Sarvam-105B的架構(gòu)配置文件,指其為"DeepSeek的山寨縮水版"。有帖子把配置文件扔進ChatGPT,得到的描述是"Mini DeepSeek-V2風格模型"。這個截圖被廣泛轉(zhuǎn)發(fā)。對于剛剛經(jīng)歷過Sarvam-M事件的人來說,這個指控聽起來似曾相識——上次是法國人的底座,這次是中國人的架構(gòu)。

Pratyush Kumar的回應(yīng)比上次更直接。他在X上寫道,團隊欣賞DeepSeek的研究,也從中學習,但Sarvam-105B是用更小的規(guī)模做到了這些結(jié)果。一名Sarvam工程師補充:公司所有模型都是從零訓練的基礎(chǔ)模型,沒有例外。

這場爭議的實質(zhì),是一個在AI領(lǐng)域反復出現(xiàn)的認知誤區(qū):架構(gòu)和模型是兩件不同的事。架構(gòu)是藍圖,是發(fā)表在學術(shù)論文里供所有人使用的設(shè)計方案;模型是訓練的產(chǎn)物,是數(shù)據(jù)、算力和工程決策共同生成的結(jié)果。

Sarvam借鑒了DeepSeek在Multi-head Latent Attention和Mixture of Experts上的架構(gòu)設(shè)計,正如DeepSeek借鑒了Transformer,正如Transformer借鑒了注意力機制的早期論文。這是這個領(lǐng)域一直以來的運作方式。

2月20日,Sarvam發(fā)布了面向普通用戶的對話產(chǎn)品Indus,登陸App Store和Google Play。這是Sarvam第一次走出開發(fā)者和企業(yè)市場,直接面對消費者。

峰會結(jié)束了。距離3月6日開源,還有兩周。


尾聲

2026年3月6日,Sarvam把模型權(quán)重傳到了Hugging Face。

沒有發(fā)布會,沒有倒計時直播。文件名sarvamai/sarvam-30b和sarvamai/sarvam-105b,Apache 2.0協(xié)議,商業(yè)使用不設(shè)障礙。同一天,模型也上傳到了印度政府的AIKosh平臺。

Pratyush Kumar在X上寫了一段話:「開源Sarvam 30B和105B。從零訓練,所有數(shù)據(jù)、模型研究和推理優(yōu)化全部在內(nèi)部完成。這些模型在大多數(shù)全球基準測試上表現(xiàn)突出,同時在印度語言上表現(xiàn)卓越?!?/p>

這句話里有一個詞值得停下來看一眼:"all done in-house",全部在內(nèi)部完成。不是Mistral的底座,不是借來的架構(gòu)實現(xiàn),是一支114人的團隊,在一個GPU基礎(chǔ)設(shè)施直到最近才勉強夠用的國家,自己搭建tokenizer、自己整理數(shù)據(jù)管道、自己寫強化學習基礎(chǔ)設(shè)施,從頭到尾跑完了一遍。

從2023年12月那場18人公司的融資發(fā)布會,到這兩個文件掛上Hugging Face,中間過去了二十七個月。

這二十七個月里發(fā)生的事情,放在任何一個敘事框架里都可以講得通:可以是一家公司如何在公開羞辱中找回初心,可以是印度國家意志如何通過一紙算力合同把一家創(chuàng)業(yè)公司綁上主權(quán)敘事的戰(zhàn)車,也可以是兩個深度參與印度數(shù)字基礎(chǔ)設(shè)施的人,在AI范式切換的時間節(jié)點上,做了一次代價高昂但方向正確的押注。

這些敘事都是真的,也都是不完整的。

Sarvam現(xiàn)在面對的問題,比兩年前更難回答:開源之后呢?當模型權(quán)重免費可得,公司的商業(yè)護城河在哪里?當全球大模型開始認真處理印度語言,Sarvam的差異化還能維持多久?政府成為股東之后,商業(yè)利益和公共利益之間的張力,遲早會在某一個具體決策上顯現(xiàn)出來。

這些問題,2026年3月6日那天沒有答案。

但那兩個文件已經(jīng)在網(wǎng)上了。任何人都可以下載,任何人都可以修改,任何人都可以拿去用。

這是Sarvam最初承諾的那件事。

本文系作者 硬嘮intalk 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

掃描下載App