北京時(shí)間2026年4月3日凌晨,Google DeepMind正式發(fā)布新一代開(kāi)放模型系列——Gemma 4。官方博客標(biāo)題寫:“Byte for byte, the most capable open models”——逐字節(jié)衡量,這是迄今為止最強(qiáng)悍的開(kāi)源模型。
據(jù)官方發(fā)布的博客,在Arena AI文本排行榜上,Gemma 4的31B Dense模型以307億參數(shù)規(guī)模登上開(kāi)源模型全球第三,26B A4B MoE模型位居第六,后者推理時(shí)僅激活38億參數(shù),卻擊敗了參數(shù)量數(shù)百億乃至數(shù)千億級(jí)別的競(jìng)品。
當(dāng)整個(gè)行業(yè)還在為大模型“越大越好”的軍備競(jìng)賽焦慮時(shí),谷歌選擇用工程效率與推理密度的極致優(yōu)化,給出了一條截然不同的技術(shù)路徑。
Gemma 4此次一口氣釋放了四個(gè)規(guī)格,覆蓋了從端側(cè)嵌入式設(shè)備到本地開(kāi)發(fā)工作站的完整算力梯度:
![]()
從關(guān)鍵技術(shù)數(shù)據(jù)看,26B A4B MoE模型推理時(shí)僅激活38億參數(shù)(總參252億),卻在Arena AI排行榜擊敗了多款參數(shù)量達(dá)數(shù)百億甚至數(shù)千億級(jí)別的競(jìng)品,包括通義千問(wèn)Qwen3-235B(2350億)和Meta Llama-3.1-405B(4050億)等。31B Dense未量化版本可在單張80GB NVIDIA H100上運(yùn)行,量化后可部署于消費(fèi)級(jí)GPU。
邊緣模型E2B/E4B支持原生音頻輸入,可進(jìn)行語(yǔ)音識(shí)別與理解。全系列模型均原生支持視頻與圖像處理,支持可變分辨率輸入。
這一產(chǎn)品矩陣的邏輯在于:小模型打“無(wú)處不在”,大模型打“無(wú)處不在的前沿智能”。
E2B和E4B被谷歌定義為核心戰(zhàn)略——“移動(dòng)優(yōu)先AI”(mobile-first AI),專為數(shù)十億Android設(shè)備及物聯(lián)網(wǎng)終端設(shè)計(jì);26B和31B則瞄準(zhǔn)本地開(kāi)發(fā)、IDE輔助和Agent工作流。
一個(gè)容易被忽略但至關(guān)重要的信息是:Gemma 4基于與閉源旗艦?zāi)P虶emini 3相同的研究成果與技術(shù)架構(gòu)構(gòu)建。這意味著,開(kāi)源社區(qū)獲得了與谷歌內(nèi)部頂級(jí)閉源模型處于同一技術(shù)世代的推理能力。
這種“開(kāi)源共享底層技術(shù)”的做法,在Gemma系列中一直延續(xù),但在第四代上更進(jìn)一步。Gemma 4在以下能力維度上實(shí)現(xiàn)提升:
• 高級(jí)推理(Advanced Reasoning):支持多步規(guī)劃與深度邏輯鏈,在數(shù)學(xué)和指令遵循基準(zhǔn)測(cè)試上表現(xiàn)顯著提升,不再止步于簡(jiǎn)單對(duì)話,而是能夠處理復(fù)雜邏輯與Agent工作流。
• Agentic工作流原生支持:內(nèi)置函數(shù)調(diào)用(function-calling)、結(jié)構(gòu)化JSON輸出、原生系統(tǒng)指令,使開(kāi)發(fā)者能夠直接構(gòu)建自主智能體,與外部工具和API可靠交互并執(zhí)行完整工作流。
• 高質(zhì)量離線代碼生成:將本地工作站轉(zhuǎn)變?yōu)楸镜貎?yōu)先的AI編程助手。
• 多模態(tài)原生:全部模型原生處理視頻和圖像,支持可變分辨率輸入,在OCR和圖表理解等視覺(jué)任務(wù)上表現(xiàn)突出。E2B和E4B還支持原生音頻輸入。
• 超長(zhǎng)上下文:邊緣模型支持128K上下文窗口,大模型最高支持256K,可在單次提示中處理代碼倉(cāng)庫(kù)或長(zhǎng)篇文檔。
• 140+語(yǔ)言原生訓(xùn)練:原生支持超過(guò)140種語(yǔ)言,覆蓋全球用戶群體。
Gemma 4的另一層重大信號(hào),在于其許可證選擇——Apache 2.0。
此前Gemma系列采用的條件性許可協(xié)議曾引發(fā)社區(qū)持續(xù)爭(zhēng)論。此次轉(zhuǎn)向Apache 2.0——業(yè)界最寬松、對(duì)商業(yè)用途最友好的開(kāi)源許可證之一——意味著開(kāi)發(fā)者獲得了完全的數(shù)據(jù)主權(quán)、基礎(chǔ)設(shè)施控制權(quán)和模型控制權(quán),可在本地或云端自由構(gòu)建和部署。
“Gemma 4以Apache 2.0許可證發(fā)布是一個(gè)巨大的里程碑。我們非常激動(dòng)能在發(fā)布首日就在Hugging Face上支持Gemma 4家族。”Clément Delangue,Hugging Face聯(lián)合創(chuàng)始人兼CEO表示。
谷歌官方在博文中明確表示,這一變化直接回應(yīng)了開(kāi)發(fā)者社區(qū)的反饋:“構(gòu)建AI的未來(lái)需要協(xié)作方式,我們相信在不設(shè)限制性障礙的情況下賦能開(kāi)發(fā)者生態(tài)系統(tǒng)。”
或許,對(duì)谷歌來(lái)說(shuō),許可證變更意味著一次戰(zhàn)略定位的調(diào)整。當(dāng)Meta的Llama系列已經(jīng)以寬松許可占據(jù)開(kāi)源生態(tài)心智時(shí),谷歌如果繼續(xù)在許可條款上設(shè)限,只會(huì)加速開(kāi)發(fā)者向競(jìng)品生態(tài)遷移。Apache 2.0是參與開(kāi)源競(jìng)爭(zhēng)的“入場(chǎng)券”,而非“加分項(xiàng)”。
Gemma 4最值得產(chǎn)業(yè)界關(guān)注的戰(zhàn)略動(dòng)作,可能是其邊緣側(cè)布局。
E2B和E4B從底層為計(jì)算與內(nèi)存效率而設(shè)計(jì),推理時(shí)僅分別激活20億和40億參數(shù),以保護(hù)設(shè)備的RAM和電池壽命。谷歌Pixel團(tuán)隊(duì)與高通(Qualcomm)、聯(lián)發(fā)科(MediaTek)深度合作,使這些多模態(tài)模型能在手機(jī)、樹(shù)莓派、NVIDIA Jetson Orin Nano等設(shè)備上完全離線運(yùn)行,且延遲接近于零。
端側(cè)生態(tài)整合要點(diǎn):
• Android開(kāi)發(fā)者可通過(guò)AICore Developer Preview進(jìn)行Agent流程原型設(shè)計(jì),與未來(lái)的Gemini Nano 4保持向前兼容。
• Android Studio中可驅(qū)動(dòng)Agent Mode進(jìn)行應(yīng)用開(kāi)發(fā)。
• ML Kit GenAI Prompt API支持生產(chǎn)級(jí)Android應(yīng)用構(gòu)建。
• Google AI Edge Gallery提供E4B和E2B的即時(shí)體驗(yàn)入口。
這釋放了一個(gè)明確的信號(hào):谷歌正在將端側(cè)AI從“實(shí)驗(yàn)品”推向“基礎(chǔ)設(shè)施”。當(dāng)4B參數(shù)級(jí)別模型能夠在手機(jī)端實(shí)現(xiàn)多模態(tài)推理、OCR、語(yǔ)音識(shí)別,且完全離線運(yùn)行,“云端依賴”便不再是AI能力的必要前提。結(jié)合256K上下文窗口的處理能力,“長(zhǎng)文檔本地分析”“離線代碼審查”等場(chǎng)景將從概念走向日常。
在發(fā)布首日,Gemma 4就獲得了主流AI工具鏈的全面支持,這在開(kāi)源模型發(fā)布史上并不多見(jiàn):
![]()
從Hugging Face到NVIDIA NIM,從Apple MLX到AMD ROCm,從Docker到Google Cloud——Gemma 4的部署路徑覆蓋了消費(fèi)級(jí)硬件、企業(yè)級(jí)基礎(chǔ)設(shè)施和三大云平臺(tái)。值得注意的是,谷歌還提供了Kaggle上的“Gemma 4 Good Challenge”競(jìng)賽,鼓勵(lì)開(kāi)發(fā)者利用該模型構(gòu)建有社會(huì)影響力的應(yīng)用,延續(xù)Gemma系列的社區(qū)運(yùn)營(yíng)傳統(tǒng)。
自第一代發(fā)布以來(lái),Gemma系列累計(jì)下載量已超過(guò)4億次,衍生變體超過(guò)10萬(wàn)個(gè)。Apache 2.0許可之下,這一生態(tài)有望在第四代上實(shí)現(xiàn)更大幅度的擴(kuò)張。
Gemma 4的發(fā)布,使開(kāi)源大模型競(jìng)爭(zhēng)進(jìn)入了一個(gè)新階段——“效率競(jìng)賽”取代“規(guī)模競(jìng)賽”成為核心敘事。
當(dāng)26B A4B MoE模型能以38億激活參數(shù)擊敗參數(shù)量數(shù)百倍的競(jìng)品,“參數(shù)效率”(intelligence-per-parameter)成為衡量開(kāi)源模型價(jià)值的新標(biāo)尺。這不僅是工程能力的體現(xiàn),更是商業(yè)策略的選擇:在消費(fèi)級(jí)硬件上實(shí)現(xiàn)前沿推理能力,意味著更低的部署成本、更快的推理速度、更廣泛的適用場(chǎng)景。
與閉源模型不同,開(kāi)源模型的競(jìng)爭(zhēng)邏輯天然是多維的——許可證寬松度、硬件適配廣度、社區(qū)生態(tài)活躍度、微調(diào)友好度,每一項(xiàng)都可能成為決定勝負(fù)的關(guān)鍵變量。Gemma 4在Apache 2.0許可、四規(guī)格矩陣、140+語(yǔ)言覆蓋、首日工具鏈全支持上的組合拳,顯然是經(jīng)過(guò)精密計(jì)算的戰(zhàn)略布局。
對(duì)于中國(guó)開(kāi)發(fā)者而言,Gemma 4的256K上下文窗口和原生中文支持(140+語(yǔ)言包含中文),配合Apache 2.0的完全自由部署權(quán),意味著在國(guó)內(nèi)合規(guī)框架下也有本地化落地的技術(shù)空間。
Gemma 4的發(fā)布不是一次簡(jiǎn)單的模型更新,而是開(kāi)源AI領(lǐng)域的一次結(jié)構(gòu)性位移。當(dāng)端側(cè)4B參數(shù)模型能夠處理多模態(tài)、語(yǔ)音、長(zhǎng)上下文任務(wù),當(dāng)307億參數(shù)模型可以在單張H100上運(yùn)行且躋身開(kāi)源排行榜前三,“本地AI”與“云端AI”的能力邊界正在被重新定義。
谷歌選擇了同時(shí)開(kāi)放所有模型權(quán)重、擁抱Apache 2.0、覆蓋從手機(jī)到云端的全硬件棧——這種“全棧開(kāi)源”策略,既是對(duì)Meta Llama系列和Mistral等開(kāi)源競(jìng)品的正面回應(yīng),也是對(duì)“閉源才能維持技術(shù)壁壘”這一傳統(tǒng)認(rèn)知的直接挑戰(zhàn)。
開(kāi)源模型的下一個(gè)臨界點(diǎn),或許不再是“誰(shuí)參數(shù)更大”,而是“誰(shuí)在更小的體積內(nèi)裝進(jìn)了更多的智能”。Gemma 4給出的答案,至少在今天是:byte for byte,它是目前最強(qiáng)的。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論