超碰97在线观看看,五月天婷婷丁香蜜臀色

2023年12月7日，Sarvam AI宣布完成融資。

4100萬美元，種子輪加A輪合并計算。領(lǐng)投方是Lightspeed，Peak XV和Khosla Ventures跟投。按照TechCrunch的說法，這是印度AI創(chuàng)業(yè)公司在這個階段完成的最大單筆融資。

公司成立剛好五個月。員工總數(shù)約18人。

沒有人知道這家公司之前做過什么——它是從隱身模式直接跳出來宣布融資的。但投資人顯然不需要更多時間判斷。Peak XV和Lightspeed在種子輪時不到一周就拍了板。Khosla Ventures創(chuàng)始人Vinod Khosla在聲明里說："我們需要像Sarvam這樣的公司，為印度、在印度構(gòu)建AI的深度能力。"

讓他們下這么快決定的，是兩個創(chuàng)始人的簡歷放在一起之后產(chǎn)生的化學反應(yīng)。

Pratyush Kumar，IIT Bombay本科，ETH Zurich博士，之后在IBM Research和Microsoft Research做研究員，再后來回到IIT Madras做教職。他在學術(shù)圈發(fā)表了89篇論文，但更重要的履歷是另一個身份：AI4Bharat聯(lián)合創(chuàng)始人。這是一個專注于印度語言AI的開源研究計劃，背后站著印度數(shù)字基礎(chǔ)設(shè)施的主要締造者Nandan Nilekani。

Vivek Raghavan，IIT Delhi本科，卡內(nèi)基梅隆博士。畢業(yè)后在EDA行業(yè)做了整整二十年，做到Synopsys的副總裁級別。然后他做了一個不太符合職業(yè)邏輯的選擇：回印度，去UIDAI——那個負責Aadhaar身份證系統(tǒng)的政府機構(gòu)——做生物識別基礎(chǔ)設(shè)施，一做就是十二年。Aadhaar今天覆蓋了超過十億印度人，是全球最大規(guī)模的數(shù)字身份系統(tǒng)之一。Raghavan是這套系統(tǒng)底層技術(shù)的參與建設(shè)者。

兩個人在AI4Bharat相遇，2023年8月一起創(chuàng)辦了Sarvam。

他們看到的機會，和ChatGPT在2022年11月出現(xiàn)有直接關(guān)系。不是因為要復制ChatGPT，而是因為ChatGPT的出現(xiàn)讓一件事變得顯而易見：語言模型正在成為新的基礎(chǔ)設(shè)施，而這套基礎(chǔ)設(shè)施如果只懂英語，對一個有二十二種官方語言、大多數(shù)人口不以英語為母語的國家來說，意味著一種結(jié)構(gòu)性的排斥。Raghavan在融資公告里說了一句話："我親眼見證過在基礎(chǔ)層創(chuàng)新、并在人口規(guī)模上部署的巨大價值。"他指的不是抽象的愿景，而是Aadhaar。

這就是VC在不到一周內(nèi)決定投資的原因：這不是兩個在硅谷學了幾年深度學習就回來創(chuàng)業(yè)的人，而是兩個真正在印度數(shù)字基礎(chǔ)設(shè)施最深處工作過的人，在AI范式切換的時間節(jié)點上，做了一個在他們背景下極為自然的選擇。

融資公告發(fā)出之后，Sarvam承諾的事情很簡單：造一個印度自己的AI。

但"印度自己的"這幾個字，比他們預(yù)想的要難兌現(xiàn)得多。

二、第一個滑坡

拿到錢之后，Sarvam的第一步走得相當穩(wěn)。

2024年2月，微軟CEO納德拉訪印主持AI Tour，宣布將與Sarvam合作開發(fā)印度語音AI工具，并將Sarvam的印度語音大模型上線Azure。2024年6月，世界經(jīng)濟論壇把Sarvam列入Technology Pioneers 2024名單——全球100家，印度10家，Sarvam在列。2024年10月，公司發(fā)布了第一個公開模型Sarvam-1：20億參數(shù)，支持10種印度語言，在部分印度語言任務(wù)上的表現(xiàn)超過了規(guī)模更大的全球模型。

媒體的描述越來越順滑：印度AI的國家隊、主權(quán)模型的希望、下一個DeepSeek。

但有一件事，在這段時間里悄悄積累了壓力。

2025年4月26日，印度政府在67家申請機構(gòu)中選中Sarvam，承接IndiaAI Mission的主權(quán)大模型項目。這是一筆條件特殊的交易：政府提供算力——4096塊NVIDIA H100，使用期六個月，托管在Yotta數(shù)據(jù)中心——換取Sarvam的股權(quán)。算力的總賬單是2.47億盧比，政府補貼其中的9868萬盧比，剩余部分由Sarvam承擔。

合同的核心要求只有一條：模型必須從零訓練，完成后開源。

這是Sarvam第一次真正拿到足以訓練主權(quán)模型的算力。

按理說，接下來的動作應(yīng)該是埋頭去做那件一直承諾的事。

但2025年5月23日，Sarvam發(fā)布了Sarvam-M。

Sarvam-M是一個240億參數(shù)的混合模型，支持10種印度語言，針對數(shù)學和代碼任務(wù)做了強化訓練。發(fā)布公告里列了一串基準測試數(shù)字，措辭是它在"多項指標上與全球領(lǐng)先模型相當"。

問題不在于這些數(shù)字是否屬實。問題在于模型的底座：Sarvam-M建立在法國公司Mistral的開源模型Mistral Small之上。Sarvam的工程師在這個基礎(chǔ)上用印度語言數(shù)據(jù)做了大規(guī)模的后訓練。這是一種在資源受限條件下相當務(wù)實的選擇，業(yè)界也有不少成功先例。

但它不是從零訓練的主權(quán)模型。

名字里的"M"，代表Mistral。這不是外界的解讀，而是媒體報道中普遍流傳的說法，Sarvam沒有公開否認。一家宣稱要造"印度自己的AI"、剛剛拿到政府主權(quán)模型合同的公司，交出的第一個成果，用的是法國人的底座。

邏輯上可以解釋：政府的H100算力4月底才到位，Sarvam-M的開發(fā)應(yīng)該在此之前已經(jīng)進行了相當長時間；發(fā)布Sarvam-M，是為了給開發(fā)者提供一個可用的工具，同時為從零訓練積累數(shù)據(jù)管道和后訓練經(jīng)驗；這是一個過渡性產(chǎn)品，不是最終答案。

這些解釋都站得住腳。但對于外部觀察者來說，一個從零訓練的承諾，和一個建立在Mistral底座上的發(fā)布，之間的距離是真實存在的。

而在接下來的二十四小時里，這個距離被放大到了所有人都看得見的程度。

三、23個下載量

2025年5月24日，Sarvam-M上線兩天后，Menlo Ventures投資人Deedy Das在X上發(fā)了一條帖子。

內(nèi)容不長，但足夠精準：印度最大的AI創(chuàng)業(yè)公司，估值十億美元的Sarvam，剛剛發(fā)布了它的旗艦大模型。上線兩天，Hugging Face下載量：23次。作為對比，他附上了另一組數(shù)字——兩名韓國大學生做的開源模型Dia，上個月的下載量：約20萬次。

最后一個詞：「丟人」。

這條帖子的轉(zhuǎn)發(fā)量在幾小時內(nèi)突破了印度科技圈的日常閾值。不是因為它特別刻薄——它確實刻薄——而是因為它把一個讓很多人隱隱不安的問題用數(shù)字說出來了：印度的AI，到底在哪里？

批評很快分成了幾個方向。

技術(shù)路線的質(zhì)疑最直接：基于Mistral微調(diào)，在IndicLLM基準上的得分僅比原始Llama高出0.02，這是Sarvam值得驕傲的成績嗎？有開發(fā)者在X上貼出了對比數(shù)據(jù)——Sarvam-M 0.49，Llama原版 0.47，Gemma 0.48——然后問：這是"可感知的提升"嗎？

生態(tài)批評則更結(jié)構(gòu)性。有投資人指出，印度沒有了Koo這樣的本土社交平臺，Sarvam-M缺乏一個天然的早期用戶反饋場，下載量低不只是模型的問題，是整個生態(tài)的問題。也有人算了另一筆賬：印度H100極度稀缺，出口管制壓力持續(xù)存在，在這種資源約束下，Sarvam能交出一個可用的24B印度語言模型，本身就不是一件容易的事——用Hugging Face幾小時的統(tǒng)計數(shù)據(jù)來定性一個項目，是在刻意誤讀。

支持的聲音里最有分量的，來自Zoho聯(lián)合創(chuàng)始人Sridhar Vembu。他在X上寫道："我們做過的每一個產(chǎn)品，沒有一個一開始就是爆款。"

但外界爭議如何，Sarvam的公關(guān)部門選擇了沉默。

真正開口的，是Pratyush Kumar本人。

他在X上轉(zhuǎn)發(fā)了批評帖子，寫了一句話：「很高興收到大家對Sarvam-M的反饋，請繼續(xù)。等我們開始訓練主權(quán)模型的時候，這些都會用上?！?/p>

這句話值得細讀。

他沒有辯解Sarvam-M的技術(shù)選擇，沒有解釋為什么用了Mistral底座，沒有反駁下載量數(shù)字，也沒有指責批評者不懂印度的資源限制。他做的事情是：把一次公開羞辱，原地轉(zhuǎn)化成了一個公開宣言。"等我們開始訓練主權(quán)模型的時候"——不是"如果"，是"等"。不是"我們將來考慮從零開始"，是"我們正在開始"。

這句話發(fā)出的時間是2025年5月25日，距離Sarvam-M發(fā)布過去了四十八小時。

此后的幾天里，Sarvam-M的Hugging Face下載量從23個反彈到334個，然后繼續(xù)緩慢爬升。不是什么了不起的數(shù)字，但至少證明最初的統(tǒng)計確實是因為Hugging Face數(shù)據(jù)延遲造成的偏差，而不是真實的用戶冷漠。

但數(shù)字的反彈并不是這個插曲真正的結(jié)局。

真正的結(jié)局，發(fā)生在八個月之后。屆時，曾經(jīng)在X上寫下「丟人」的那個人，會主動發(fā)文說："I was wrong."

但那是后話。

2025年5月，Sarvam需要面對的現(xiàn)實是：政府的4096塊H100已經(jīng)就位，承諾從零訓練的合同已經(jīng)簽署，外界的嘲諷已經(jīng)變成了歷史記錄。接下來沒有別的路，只有一條。

四、4096塊GPU，重新開始

讓我們回到那筆交易本身。

4096塊NVIDIA H100，六個月使用期，托管在孟買郊外的Yotta數(shù)據(jù)中心?？傎~單2.47億盧比，政府補貼其中的9868萬盧比。作為交換，Sarvam讓出了一部分股權(quán)，訓練完成的模型必須開源。

這是印度政府在IndiaAI Mission框架下簽下的第一批主權(quán)模型合同之一。67家機構(gòu)參與申請，最終四家入選：Sarvam、Gnani.ai、Gan.ai和Soket AI Labs。Sarvam拿到的算力分配是四家中最大的一塊。

從外部看，這是一筆對Sarvam極為有利的交易：政府出錢補貼算力，Sarvam用政府的GPU訓練模型，訓練完開源，政府拿一點股權(quán)。性價比高得有些不真實。

但這筆交易的另一面，是一個約束。

開源意味著Sarvam不能把這個模型變成護城河。股權(quán)意味著政府成了Sarvam的股東，這個身份在任何國家都意味著某種隱性的期待和潛在的干預(yù)空間。算力是政府補貼的，但賬單的剩余部分——超過1.5億盧比——要Sarvam自己承擔。對一家年收入只有2910萬盧比的公司來說，這個數(shù)字意味著巨大的財務(wù)壓力。

更深的約束是時間。六個月，4096塊H100，目標是一個從零開始、在全球基準測試上有競爭力、同時精通印度語言的大模型。

在全球AI軍備競賽的背景下，這是一個聽起來有些冒險的賭注。2025年初，OpenAI的融資總額已經(jīng)超過180億美元。DeepSeek用相對有限的資源訓練出了震驚業(yè)界的R1，但它背后是中國成熟的AI基礎(chǔ)設(shè)施生態(tài)。Sarvam的114名員工，要在一個GPU基礎(chǔ)設(shè)施還不完善、訓練數(shù)據(jù)需要自己從頭整理的國家，完成這件事。

他們的回答，是從基礎(chǔ)設(shè)施開始做起。

Sarvam的工程師首先重新設(shè)計了tokenizer——這是大模型處理文字的最底層組件。現(xiàn)有的主流tokenizer對印度文字效率極低，處理梵文、泰米爾文、孟加拉文這類非拉丁字母體系時，需要消耗比英文多出數(shù)倍的token。Sarvam重新訓練的tokenizer，對印度文字的處理效率提升了三到四倍。這一步?jīng)]有任何可見度，不會出現(xiàn)在發(fā)布會的PPT上，但它決定了后續(xù)所有訓練的成本和效率。

數(shù)據(jù)管道是另一個自建的基礎(chǔ)設(shè)施。Sarvam在內(nèi)部搭建了一套評估數(shù)據(jù)質(zhì)量的工具，從頭整理訓練語料。最終用于預(yù)訓練的數(shù)據(jù)量，30B模型約為16萬億token。這些數(shù)據(jù)的收集、清洗、標注，全部在印度國內(nèi)完成。

強化學習基礎(chǔ)設(shè)施也是自研的。這個環(huán)節(jié)決定了模型在推理任務(wù)上的最終表現(xiàn)，也是DeepSeek-R1讓業(yè)界重新注意到的核心技術(shù)路線。Sarvam選擇了同樣的方向，并把整套訓練流程完整地跑了一遍。

2025年下半年，Sarvam幾乎沒有對外發(fā)聲。

公司賬面上的年收入是2910萬盧比，折合約350萬美元。這是一個健康的早期創(chuàng)業(yè)公司收入，但在大模型訓練的語境下，這個數(shù)字說明Sarvam幾乎沒有任何財務(wù)緩沖。他們在用一家小公司的資源，做一件通常需要十倍體量才敢啟動的事情。

對外沉默的背后，是一支114人的團隊在訓練一個他們自己也不確定能否成功的模型。

五、14天，14次發(fā)布

2026年2月1日，Sarvam開始了一場密集的公開攻勢。

策略是刻意設(shè)計的：在India AI Impact Summit召開前的兩周，每天發(fā)布一個新產(chǎn)品或新功能，連續(xù)十四天不間斷。語音識別模型Saaras V3、文字轉(zhuǎn)語音模型Bulbul V3、文檔數(shù)字化工具Sarvam Akshar、多語言內(nèi)容創(chuàng)作平臺Sarvam Studio……一個接一個，節(jié)奏像節(jié)拍器一樣準確。

這個策略有一個明顯的參照對象：OpenAI在2024年末的"12 Days of OpenAI"發(fā)布攻勢。Sarvam把它改成了14天，因為峰會日期決定了窗口長度，但邏輯是一樣的——用密集的發(fā)布節(jié)奏制造輿論動能，讓媒體和開發(fā)者在峰會開幕之前就持續(xù)關(guān)注這家公司。

在峰會開幕前的密集發(fā)布期間，有一件事悄悄發(fā)生了。2月7日，Sarvam發(fā)布Bulbul V3語音合成模型當天，Deedy Das——那個在2025年5月寫下「丟人」的人——主動在X上發(fā)了一篇帖子，開頭三個字："I was wrong."他說，他一年前認為訓練小型Indic語言模型的方向是錯的。"但他們做到了轉(zhuǎn)變。他們有Indic語言最好的語音合成、語音識別和文字識別模型，這是真正有價值的東西。"從「丟人」到"I was wrong"，八個月，觸發(fā)轉(zhuǎn)變的不是大模型，而是一個語音產(chǎn)品。

2月16日，峰會開幕展覽日。

印度Modi總理在Bharat Mandapam的展覽區(qū)走了一圈。他在Sarvam的展臺前停下來，試戴了一副黑色眼鏡。這副眼鏡叫Sarvam Kaze，是Sarvam研發(fā)的AI智能眼鏡原型，支持十種以上印度語言的實時語音交互，Pratyush Kumar在X上發(fā)了一張Modi戴著眼鏡的照片，配文只有一句：「第一個試戴的人？總理?！?/p>

這張照片的傳播速度，超過了Sarvam過去兩年所有發(fā)布的總和。

2月18日，Research Symposium，Sarvam正式發(fā)布Sarvam-30B和Sarvam-105B。

兩個模型，都從零訓練。30B模型預(yù)訓練用了約16萬億token，支持32000 token的上下文窗口，MoE架構(gòu)下每次推理只激活約10億參數(shù)，推理成本大幅壓縮。105B模型支持128000 token的超長上下文，在AIME 25數(shù)學競賽基準上得分88.3，使用工具后達到96.7；MMLU得分90.6；Math500得分98.6。

Pratyush Kumar在臺上說，105B在多項推理基準上超過了DeepSeek-R1——而DeepSeek-R1的總參數(shù)量是6000億，是Sarvam-105B的近六倍。

批評在幾小時內(nèi)又來了。

有人在X上翻出了Sarvam-105B的架構(gòu)配置文件，指其為"DeepSeek的山寨縮水版"。有帖子把配置文件扔進ChatGPT，得到的描述是"Mini DeepSeek-V2風格模型"。這個截圖被廣泛轉(zhuǎn)發(fā)。對于剛剛經(jīng)歷過Sarvam-M事件的人來說，這個指控聽起來似曾相識——上次是法國人的底座，這次是中國人的架構(gòu)。

Pratyush Kumar的回應(yīng)比上次更直接。他在X上寫道，團隊欣賞DeepSeek的研究，也從中學習，但Sarvam-105B是用更小的規(guī)模做到了這些結(jié)果。一名Sarvam工程師補充：公司所有模型都是從零訓練的基礎(chǔ)模型，沒有例外。

這場爭議的實質(zhì)，是一個在AI領(lǐng)域反復出現(xiàn)的認知誤區(qū)：架構(gòu)和模型是兩件不同的事。架構(gòu)是藍圖，是發(fā)表在學術(shù)論文里供所有人使用的設(shè)計方案；模型是訓練的產(chǎn)物，是數(shù)據(jù)、算力和工程決策共同生成的結(jié)果。

Sarvam借鑒了DeepSeek在Multi-head Latent Attention和Mixture of Experts上的架構(gòu)設(shè)計，正如DeepSeek借鑒了Transformer，正如Transformer借鑒了注意力機制的早期論文。這是這個領(lǐng)域一直以來的運作方式。

2月20日，Sarvam發(fā)布了面向普通用戶的對話產(chǎn)品Indus，登陸App Store和Google Play。這是Sarvam第一次走出開發(fā)者和企業(yè)市場，直接面對消費者。

峰會結(jié)束了。距離3月6日開源，還有兩周。

尾聲

2026年3月6日，Sarvam把模型權(quán)重傳到了Hugging Face。

沒有發(fā)布會，沒有倒計時直播。文件名sarvamai/sarvam-30b和sarvamai/sarvam-105b，Apache 2.0協(xié)議，商業(yè)使用不設(shè)障礙。同一天，模型也上傳到了印度政府的AIKosh平臺。

Pratyush Kumar在X上寫了一段話：「開源Sarvam 30B和105B。從零訓練，所有數(shù)據(jù)、模型研究和推理優(yōu)化全部在內(nèi)部完成。這些模型在大多數(shù)全球基準測試上表現(xiàn)突出，同時在印度語言上表現(xiàn)卓越?！?/p>

這句話里有一個詞值得停下來看一眼："all done in-house"，全部在內(nèi)部完成。不是Mistral的底座，不是借來的架構(gòu)實現(xiàn)，是一支114人的團隊，在一個GPU基礎(chǔ)設(shè)施直到最近才勉強夠用的國家，自己搭建tokenizer、自己整理數(shù)據(jù)管道、自己寫強化學習基礎(chǔ)設(shè)施，從頭到尾跑完了一遍。

從2023年12月那場18人公司的融資發(fā)布會，到這兩個文件掛上Hugging Face，中間過去了二十七個月。

這二十七個月里發(fā)生的事情，放在任何一個敘事框架里都可以講得通：可以是一家公司如何在公開羞辱中找回初心，可以是印度國家意志如何通過一紙算力合同把一家創(chuàng)業(yè)公司綁上主權(quán)敘事的戰(zhàn)車，也可以是兩個深度參與印度數(shù)字基礎(chǔ)設(shè)施的人，在AI范式切換的時間節(jié)點上，做了一次代價高昂但方向正確的押注。

這些敘事都是真的，也都是不完整的。

Sarvam現(xiàn)在面對的問題，比兩年前更難回答：開源之后呢？當模型權(quán)重免費可得，公司的商業(yè)護城河在哪里？當全球大模型開始認真處理印度語言，Sarvam的差異化還能維持多久？政府成為股東之后，商業(yè)利益和公共利益之間的張力，遲早會在某一個具體決策上顯現(xiàn)出來。

這些問題，2026年3月6日那天沒有答案。

但那兩個文件已經(jīng)在網(wǎng)上了。任何人都可以下載，任何人都可以修改，任何人都可以拿去用。

這是Sarvam最初承諾的那件事。

一、頂峰那天

二、第一個滑坡

三、23個下載量

四、4096塊GPU，重新開始

五、14天，14次發(fā)布

尾聲

敬原創(chuàng)，有鈦度，得贊賞

一、頂峰那天

二、第一個滑坡

三、23個下載量

四、4096塊GPU，重新開始

五、14天，14次發(fā)布

尾聲

敬原創(chuàng)，有鈦度，得贊賞

一、頂峰那天

三、23個下載量

四、4096塊GPU，重新開始

五、14天，14次發(fā)布

敬原創(chuàng)，有鈦度，得贊賞