截圖來自GitHub

該論文共14名作者,DeepSeek創(chuàng)始人、CEO梁文鋒的署名列于最后。1月1日,DeepSeek的發(fā)布關(guān)于mHC架構(gòu)的論文,引發(fā)廣泛關(guān)注,梁文鋒同樣署名,并列于最后。

兩篇論文體現(xiàn)了DeepSeek一直以來的方向:打破算力成本硬約束,通過架構(gòu)、方法論創(chuàng)新,走出更具性價比的道路。

如果說此前的mHC是提出一種新的底層架構(gòu),那么,條件存儲更類似于架構(gòu)層面的分工重構(gòu)。

根據(jù)DeepSeek的研究,Engram是被設(shè)計成可微分、可訓(xùn)練、原生嵌入模型結(jié)構(gòu)的組件,其核心是把記憶性負載從主干計算中剝離出去,規(guī)避低效的反復(fù)計算,通過高速檢索模塊直接調(diào)用穩(wěn)定存在、高頻出現(xiàn)的知識。

Engram首先會提供確定性檢索。模型基于當(dāng)前token和前文形成的N-gram,通過哈希映射,直接從一個超大規(guī)模的靜態(tài)嵌入表中取出對應(yīng)向量,無需依賴復(fù)雜的神經(jīng)計算,速度更快、路徑穩(wěn)定。

此后,Engram會通過引入輕量化門控機制,由當(dāng)前層的隱藏狀態(tài)來判斷這段記憶是否真的適合當(dāng)前語境,避免查到就用的生硬注入。

換句話說,Engram既能在輸入端解決“記得住”的問題,也能在輸出端優(yōu)化“說人話”的表現(xiàn)。

DeepSeek還稱,實驗表明,相關(guān)機制在時間、專有名詞等固定模式下高度活躍,而在自由生成和復(fù)雜推理時幾乎不介入。這就在強化了記憶功能的同時,避免了不合時宜的幻覺出現(xiàn)。

在整體架構(gòu)上,DeepSeek把大模型的能力拆成了三個相互獨立、又彼此協(xié)作的維度。

首先是決定邏輯與抽象能力的模型深度,其次是以MoE為代表,減少每次激活計算量的計算稀疏性,以MoE為代表,減少每次激活的計算量。而第三維正是存儲稀疏性,也就是Engram引入的條件記憶。

此前,大模型廠商開發(fā)記憶模塊時,會擔(dān)心影響模型的計算能力和推理性能。

根據(jù)論文,DeepSeek通過U型擴展定律解決平衡問題,在總參數(shù)和算力預(yù)算固定的情況下,研究團隊系統(tǒng)性地調(diào)整MoE和Engram的比例,得出將20%至25%的稀疏參數(shù)分配給Engram的最優(yōu)平衡點。

其測試數(shù)據(jù)稱,即便掛載了規(guī)模高達千億參數(shù)的Engram記憶庫,推理吞吐?lián)p失也能控制在3%以內(nèi)。

The Information援引知情人士消息稱,DeepSeek預(yù)計將在今年中國春節(jié)前后發(fā)布最新的V4模型,核心突破主要在于超長代碼提示詞的處理、解析能力,以及全流程訓(xùn)練中數(shù)據(jù)模式的理解力。

這也意味著,新模型不僅推理性能會大幅提升,還會更擅長處理復(fù)雜任務(wù)時,而編碼能力也是新模型的主打能力。知情人士稱,其內(nèi)部初步測試結(jié)果已經(jīng)超越了Anthorpic的最強編程模型Claude。

Anthorpic為守護編程能力優(yōu)勢和入口通道,近期已陸續(xù)切斷Claude Code的第三方平臺入口,1月12日,又放出Cowork,主打辦公場景的Agent落地,可以自動幫助用戶完成制作PPT、整理電子郵件、制定工作計劃等各類任務(wù),上手門檻較低。

目前還不清楚mHC和Engram在DeepSeek新模型中的具體角色和情況,但即將到來的旗艦新品,市場在期待它能再帶來一次“DeepSeek春節(jié)沖擊波”。(作者|胡珈萌,編輯|李程程)

本文系作者 飛向TAI空 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

17:30

2026太空算力產(chǎn)業(yè)大會將在北京啟幕

17:29

樹立和踐行正確政績觀學(xué)習(xí)教育中央指導(dǎo)組派駐地方和單位名單公布

17:28

世貿(mào)組織第14屆部長級會議在雅溫得閉幕,成員同意盡快就未決議題進行磋商

17:26

2連板貴廣網(wǎng)絡(luò):公司不涉及算力相關(guān)業(yè)務(wù)

17:25

伊朗稱未與美國直接對話,僅通過第三方傳遞信息

17:24

上交所對*ST星農(nóng)及有關(guān)責(zé)任人予以公開譴責(zé)

17:21

基金年報被要求詳列年度“罰單”明細

17:21

易方達基金:恒生紅利低波ETF易方達4月3日起暫停申購

17:19

耐世特泰國制造工廠正式投產(chǎn)

17:19

九安醫(yī)療今日漲停,有2家機構(gòu)專用席位凈賣出1.17億元

17:18

伊朗沖突打亂沙特原油常規(guī)定價機制,緊張的買家尋求替代方式

17:17

華安基金:華安標(biāo)普全球石油指數(shù)(LOF)4月3日暫停贖回

17:16

歐元區(qū)3月經(jīng)濟景氣指數(shù)為96.6,低于預(yù)期

17:15

神劍股份今日漲停,3家機構(gòu)專用席位凈買入1.35億元

17:15

邁為股份今日跌15.78%,有3家機構(gòu)專用席位凈賣出1.98億元

17:15

廣聯(lián)航空今日20cm漲停,3家機構(gòu)專用席位凈買入1.28億元

17:14

華泰證券:2025年凈利潤163.83億元,同比增長6.72%

17:13

市場監(jiān)管總局與歐盟委員會競爭總司共同舉辦第28屆中歐競爭政策周

17:06

中國攻克液氫燃料航空渦輪動力關(guān)鍵技術(shù)

17:04

面對多線作戰(zhàn)局面,以色列通過創(chuàng)紀(jì)錄預(yù)算

掃描下載App