這款模型來(lái)頭不小:一方面,它背后有日本經(jīng)濟(jì)產(chǎn)業(yè)省支持的 GENIAC 項(xiàng)目站臺(tái),算是“國(guó)家隊(duì)”級(jí)別的大模型;另一方面,它還擁有一個(gè)相當(dāng)唬人的標(biāo)簽,7000 億參數(shù)。
這什么概念?
哪怕按更具體的口徑來(lái)看,它的總參數(shù)規(guī)模也有 671B,依然屬于當(dāng)前開源模型里的第一梯隊(duì),和 DeepSeek V3 坐一桌。
背靠日本國(guó)內(nèi)最大靠山,參數(shù)又非常突出,對(duì)于這款模型的發(fā)布,樂(lè)天底氣十足,連“(日本)國(guó)產(chǎn)模型的逆襲”都喊出來(lái)了。
![]()
但是,日本網(wǎng)友還沒(méi)來(lái)得及為Rakuten AI 3.0 開香檳,一場(chǎng)來(lái)自開源社區(qū)的技術(shù)打假就給他們澆了一盆冷水。
這款號(hào)稱“日本最強(qiáng)、性能最強(qiáng)”的大模型,竟然是咱們中國(guó)開源大模型,DeepSeek-V3 的日語(yǔ)“套殼版”。
和絕大多數(shù)的打假“后知后覺”不同,Rakuten AI 3.0 的吹牛行為甚至挺不過(guò)一個(gè)下午。
就在模型出來(lái)的幾個(gè)小時(shí)里,開源社區(qū)的大神們就發(fā)現(xiàn),這款加上了非常多牛逼限定詞的 AI 大模型,有貓膩。
甚至樂(lè)天都沒(méi)有過(guò)多的“掩飾”,因?yàn)镽akuten AI 3.0赫然在Hugging Face上的config.json文件里寫著:
model_type: deepseek_v3
architectures: DeepseekV3ForCausalLM
![]()
這就相當(dāng)于明牌告訴大家,這款模型的底層架構(gòu)來(lái)自 DeepSeek V3。
當(dāng)然,DeepSeek V3 作為一款開源模型,被學(xué)習(xí)、借鑒、使用來(lái)作為模型架構(gòu)也正常不過(guò),畢竟這就是開源的初心;
但Rakuten AI 3.0 的問(wèn)題在于,在發(fā)布的時(shí)候它絲毫沒(méi)有提及使用了DeepSeek V3 的架構(gòu),還搬出了“自主研發(fā)”“日本最強(qiáng)”“日本最大”等限定詞,看上去真的是由樂(lè)天從 0 到 1,自主鼓搗出來(lái)的大模型。
![]()
這也是開源社區(qū)最不滿的地方:這款模型在上傳的時(shí)候,沒(méi)有充分保留 DeepSeek 原有的歸屬/許可證聲明;直到被社區(qū)抓包之后,才悄悄地補(bǔ)上了 NOTICE 文件。
![]()
樂(lè)天的這種做法,顯然是違背了開源精神,“需要保留原許可證和歸屬”的要求。
在使出這一招“亡羊補(bǔ)牢”之后,別說(shuō)路人,連日本網(wǎng)友都好感都敗光了。對(duì)于這款模型,日本網(wǎng)友都評(píng)論基本都是:
“GENIAC項(xiàng)目花納稅人的錢,就做個(gè)DeepSeek的日語(yǔ)fine-tune版?”
“自稱日本最大高性能,卻是中國(guó)的日語(yǔ)版。”
![]()
![]()
那么這款模型的性能怎么樣呢?
根據(jù)樂(lè)天官方陸續(xù)公布的數(shù)據(jù),Rakuten AI 3.0 的紙面成績(jī)其實(shí)相當(dāng)能打。
像 Japanese MT-Bench 這樣的日語(yǔ)綜合基準(zhǔn),它已經(jīng)跑贏了 GPT-4o;而在日本文化理解、敬語(yǔ)表達(dá)、商務(wù)郵件、報(bào)告寫作、文檔分析這些更偏本土語(yǔ)境的任務(wù)里,表現(xiàn)也明顯很強(qiáng)。
![]()
再加上它雖然總參數(shù)接近 7000 億,但因?yàn)橛昧?nbsp;MoE 稀疏架構(gòu),單次推理實(shí)際激活的參數(shù)并不高,成本還能被壓到相當(dāng)前沿閉源模型的10%左右。
![]()
也就是說(shuō),這模型不只是“成績(jī)好看”,而且用起來(lái)還非常省錢。
但熟悉大模型的人一眼就看出了:這些不都是 DeepSeek 本來(lái)的優(yōu)勢(shì)嗎?
是的,畢竟是一款基于 DeepSeek-V3 架構(gòu)、再做日語(yǔ)數(shù)據(jù)微調(diào)和本土化優(yōu)化的大模型,Rakuten AI 3.0 的表現(xiàn)越是厲害,就越是能證明 DeepSeek 厲害,這也是 X 上相當(dāng)一部分日本網(wǎng)友破防的點(diǎn):
“日本政府用了納稅人的錢來(lái)支持你們,你們卻用來(lái)證明中國(guó)的 DeepSeek 牛逼?”
估計(jì)梁文鋒看到這出戲,做夢(mèng)都得笑醒。
但是,日本的網(wǎng)友們可能也有點(diǎn)“失憶癥”了,畢竟從日本 AI 大模型的發(fā)展歷程來(lái)看,抄襲,或者優(yōu)雅點(diǎn)說(shuō):“套殼”,不是常態(tài)嗎?
Rakuten AI 3.0 可不是第一個(gè)使用了別家大模型架構(gòu)作為基座的日本模型。
一個(gè)典型例子,是日本 AI 公司ABEJA 在 2025 年 4 月左右推出的小型日語(yǔ)專精推理模型:ABEJA QwQ 32b。
![]()
光看這個(gè)名字,其實(shí)就已經(jīng)名牌了。
畢竟連 QwQ 這個(gè)阿里千問(wèn)系最標(biāo)志性的前綴,它都懶得改。
而實(shí)際情況也差不多。
這款模型的底座,本來(lái)就是 Qwen2.5 + QwQ-32B,ABEJA 做的事情,說(shuō)白了就是先拿千問(wèn)模型做日語(yǔ)持續(xù)預(yù)訓(xùn)練,再把推理能力整合進(jìn)去,最后補(bǔ)一輪日語(yǔ)強(qiáng)化和微調(diào)。
本質(zhì)上,它和樂(lè)天這次的路數(shù)并沒(méi)有什么不同:都是拿中國(guó)開源大模型當(dāng)基座,再靠本土數(shù)據(jù)和場(chǎng)景去做一層“日本化”包裝。
只不過(guò),ABEJA 至少?zèng)]有把自己演成什么從 0 到 1 橫空出世的“日本最強(qiáng)原創(chuàng)模型”。
它不但把底座和訓(xùn)練路徑寫清楚,連阿里那邊都沒(méi)有介意,阿里巴巴官方 X 賬號(hào)甚至還專門轉(zhuǎn)發(fā)慶祝,大意就是:ABEJA 做的日語(yǔ)推理模型,成績(jī)已經(jīng)超過(guò)了 GPT-4o。
同樣是“套殼”,ABEJA 當(dāng)然也談不上多原創(chuàng),只不過(guò)人家至少?zèng)]有一邊踩著別人的底座,一邊還忙著擦腳印。
除了ABEJA 和樂(lè)天,不少日本公司其實(shí)也大體走的是這條路。
像 Lightblue、ELYZA 這些做日語(yǔ)模型的玩家,底下是 Qwen、Llama 等現(xiàn)成底座,有的也會(huì)結(jié)合 DeepSeek、Mistral 這類強(qiáng)模型能力做本土化,上面再糊一層更懂日本企業(yè)文檔、客服語(yǔ)料、敬語(yǔ)語(yǔ)境、制造業(yè)日志的數(shù)據(jù),把它調(diào)成一個(gè)“更會(huì)說(shuō)日本話、更會(huì)干日本活”的版本。
日經(jīng)新聞網(wǎng)之前曾報(bào)道過(guò),“「AIモデルスコア」で 日本企業(yè)が開発した上位10モデルのうち、新興ABEJA(アベジャ)のモデルなど計(jì)6種がディープシークや Qwen を基盤に開発されていた。”
翻譯過(guò)來(lái),就是現(xiàn)在日本公司推出的前10大模型里,有 6 個(gè)都是基于 DeepSeek 或Qwen 進(jìn)行二次開發(fā)。
其實(shí),這在 AI 圈本來(lái)也不算是什么原則性問(wèn)題,全球 AI 行業(yè)現(xiàn)在本來(lái)就是這么玩的。
美國(guó)也好,歐洲也好,中國(guó)也好,別說(shuō)二三線團(tuán)隊(duì)了,很多一線團(tuán)隊(duì)其實(shí)也在走這條路:拿Qwen 做推理增強(qiáng),拿 DeepSeek 做蒸餾和本地部署,拿 Llama 做行業(yè)版,拿 Mistral 做輕量化和邊緣場(chǎng)景。
畢竟,從頭訓(xùn)練一個(gè)前沿基座,燒掉的是天文數(shù)字級(jí)別的算力、資金和人才;但如果你已經(jīng)有了一個(gè)足夠強(qiáng)的開源底座,真正決定你能不能跑出來(lái)的,反而是后面的數(shù)據(jù)、場(chǎng)景和落地能力。
所以,樂(lè)天這次的“炎上”,本質(zhì)不是因?yàn)?ldquo;抄襲”而觸犯天條,而是干得太不體面了。
一邊吃著開源模型的紅利,一邊又拼命把自己往“自主研發(fā)”“日本最強(qiáng)”“日本最大”上靠;一邊站在 DeepSeek 的肩膀上,一邊又不愿把這件事說(shuō)透,甚至連許可證和歸屬都都悄悄藏起來(lái)。
別人套殼,至少套得坦坦蕩蕩;樂(lè)天套殼,卻偏偏還想演成“全靠自己”。
又或許,樂(lè)天這次“不體面”的背后,折射出的,只是整個(gè)日本科技領(lǐng)域已經(jīng)落后于世界的冰山一角。
1990 年,隨著經(jīng)濟(jì)泡沫被刺破,整個(gè)日本都仿佛被按下了暫停鍵。
股價(jià)暴跌、地價(jià)跳水、不良債權(quán)爆發(fā)、銀行惜貸、企業(yè)連鎖倒閉……整個(gè)日本經(jīng)濟(jì)像多米諾骨牌一樣接連崩塌,正式跌入“平成不況”,并由此開啟了失落的 10 年、20 年,乃至 30 年。
而在這樣的背景下,日本 IT 行業(yè)的軌跡,也幾乎成了這場(chǎng)長(zhǎng)期停滯的縮影。
關(guān)于日本的“笑話”大家已經(jīng)看到非常多了:
都 2024 年了,日本政府居然還在和軟盤“決戰(zhàn)到天明”。
![]()
直到去年 6 月,日本數(shù)字廳才終于廢掉了 1034 條還要求用軟盤等介質(zhì)提交材料的規(guī)定,只剩下一條和汽車回收有關(guān)的規(guī)定沒(méi)處理完。
在 AI、大模型、云計(jì)算都已經(jīng)卷到天上的年代,日本政府居然還在認(rèn)真討論“軟盤要不要退役”這種問(wèn)題。
傳真機(jī)也差不多。
這些年外界老拿“日本還在用傳真”開涮,聽上去像段子,結(jié)果很多時(shí)候還真不是段子。
日本文部科學(xué)省自己給出的“教育DX”(DX,Digital Transformation,數(shù)字轉(zhuǎn)型)目標(biāo)里,甚至把“原則上廢止學(xué)校之間通過(guò)傳真機(jī)往來(lái)和蓋章”單獨(dú)列成了 KPI;而且這個(gè)目標(biāo)之所以要專門寫出來(lái),恰恰是因?yàn)楝F(xiàn)實(shí)里它遠(yuǎn)遠(yuǎn)沒(méi)有完成。
![]()
說(shuō)白了,如果一個(gè)國(guó)家的教育系統(tǒng)到了 2024 年還要把“別再傳真、別再蓋章”寫成數(shù)字化改革目標(biāo),那它的問(wèn)題顯然不是某個(gè)軟件沒(méi)裝好那么簡(jiǎn)單了。
更尷尬的是,日本自己其實(shí)也不是沒(méi)意識(shí)到問(wèn)題。
無(wú)論是成立數(shù)字廳,還是高調(diào)對(duì)軟盤、傳真“宣戰(zhàn)”,都說(shuō)明日本政府很清楚自己在數(shù)字化這件事上慢了半拍。
可問(wèn)題在于,知道歸知道,改起來(lái)卻總像在沼澤地里跑步:
一邊是官僚系統(tǒng)的慣性,一邊是紙質(zhì)文件、印章文化、老舊流程的路徑依賴,再疊上高齡化和 IT 人才短缺,最后就變成了一個(gè)很別扭的局面:
大家都知道該變,但誰(shuí)都沒(méi)辦法一下子把舊時(shí)代連根拔掉。
就連日本自己的政策討論里,也長(zhǎng)期把數(shù)字人才不足當(dāng)成結(jié)構(gòu)性問(wèn)題來(lái)看;經(jīng)產(chǎn)省更早前的測(cè)算里,到 2030 年日本 IT 人才缺口最高可接近 45 萬(wàn)人。
但程序員不夠,怎么辦?
從官方和產(chǎn)業(yè)界的表態(tài)來(lái)看,他們顯然也在把生成式 AI 當(dāng)成另一條捷徑:既然程序員不夠,那就盡量讓更多懂業(yè)務(wù)的人,直接通過(guò)自然語(yǔ)言下指令,把需求更快變成代碼、文檔和系統(tǒng)。
所以,Rakuten AI 3.0 這件事,理應(yīng)是整個(gè) 2026,日本 AI 圈的一個(gè)里程碑式事件。
因?yàn)樗袷侨毡?nbsp;IT 困境的一次濃縮展示:政府給資源,企業(yè)拿補(bǔ)貼,嘴上喊著“日本最強(qiáng)”“本土自研”,結(jié)果掀開蓋子一看,底下還是 DeepSeek V3。
![]()
這當(dāng)然不說(shuō)明日本公司不會(huì)做 AI,也不說(shuō)明日本沒(méi)有技術(shù)實(shí)力。
但卻反映了,那個(gè)曾經(jīng)靠電子消費(fèi)品、半導(dǎo)體、工業(yè)產(chǎn)品征服世界的日本,在今天這場(chǎng)由軟件、數(shù)據(jù)、云和大模型主導(dǎo)的新技術(shù)競(jìng)賽里,已經(jīng)很難再靠自己完整定義游戲規(guī)則了。
連最想證明“日本也有自己的旗艦大模型”的關(guān)鍵時(shí)刻,最后都得站在中國(guó)開源模型的肩膀上,這才是整件事最扎心的地方。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論