截圖來自GitHub

該論文共14名作者,DeepSeek創(chuàng)始人、CEO梁文鋒的署名列于最后。1月1日,DeepSeek的發(fā)布關(guān)于mHC架構(gòu)的論文,引發(fā)廣泛關(guān)注,梁文鋒同樣署名,并列于最后。

兩篇論文體現(xiàn)了DeepSeek一直以來的方向:打破算力成本硬約束,通過架構(gòu)、方法論創(chuàng)新,走出更具性價比的道路。

如果說此前的mHC是提出一種新的底層架構(gòu),那么,條件存儲更類似于架構(gòu)層面的分工重構(gòu)。

根據(jù)DeepSeek的研究,Engram是被設(shè)計成可微分、可訓練、原生嵌入模型結(jié)構(gòu)的組件,其核心是把記憶性負載從主干計算中剝離出去,規(guī)避低效的反復(fù)計算,通過高速檢索模塊直接調(diào)用穩(wěn)定存在、高頻出現(xiàn)的知識。

Engram首先會提供確定性檢索。模型基于當前token和前文形成的N-gram,通過哈希映射,直接從一個超大規(guī)模的靜態(tài)嵌入表中取出對應(yīng)向量,無需依賴復(fù)雜的神經(jīng)計算,速度更快、路徑穩(wěn)定。

此后,Engram會通過引入輕量化門控機制,由當前層的隱藏狀態(tài)來判斷這段記憶是否真的適合當前語境,避免查到就用的生硬注入。

換句話說,Engram既能在輸入端解決“記得住”的問題,也能在輸出端優(yōu)化“說人話”的表現(xiàn)。

DeepSeek還稱,實驗表明,相關(guān)機制在時間、專有名詞等固定模式下高度活躍,而在自由生成和復(fù)雜推理時幾乎不介入。這就在強化了記憶功能的同時,避免了不合時宜的幻覺出現(xiàn)。

在整體架構(gòu)上,DeepSeek把大模型的能力拆成了三個相互獨立、又彼此協(xié)作的維度。

首先是決定邏輯與抽象能力的模型深度,其次是以MoE為代表,減少每次激活計算量的計算稀疏性,以MoE為代表,減少每次激活的計算量。而第三維正是存儲稀疏性,也就是Engram引入的條件記憶。

此前,大模型廠商開發(fā)記憶模塊時,會擔心影響模型的計算能力和推理性能。

根據(jù)論文,DeepSeek通過U型擴展定律解決平衡問題,在總參數(shù)和算力預(yù)算固定的情況下,研究團隊系統(tǒng)性地調(diào)整MoE和Engram的比例,得出將20%至25%的稀疏參數(shù)分配給Engram的最優(yōu)平衡點。

其測試數(shù)據(jù)稱,即便掛載了規(guī)模高達千億參數(shù)的Engram記憶庫,推理吞吐?lián)p失也能控制在3%以內(nèi)。

The Information援引知情人士消息稱,DeepSeek預(yù)計將在今年中國春節(jié)前后發(fā)布最新的V4模型,核心突破主要在于超長代碼提示詞的處理、解析能力,以及全流程訓練中數(shù)據(jù)模式的理解力。

這也意味著,新模型不僅推理性能會大幅提升,還會更擅長處理復(fù)雜任務(wù)時,而編碼能力也是新模型的主打能力。知情人士稱,其內(nèi)部初步測試結(jié)果已經(jīng)超越了Anthorpic的最強編程模型Claude。

Anthorpic為守護編程能力優(yōu)勢和入口通道,近期已陸續(xù)切斷Claude Code的第三方平臺入口,1月12日,又放出Cowork,主打辦公場景的Agent落地,可以自動幫助用戶完成制作PPT、整理電子郵件、制定工作計劃等各類任務(wù),上手門檻較低。

目前還不清楚mHC和Engram在DeepSeek新模型中的具體角色和情況,但即將到來的旗艦新品,市場在期待它能再帶來一次“DeepSeek春節(jié)沖擊波”。(作者|胡珈萌,編輯|李程程)

本文系作者 飛向TAI空 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

掃描下載App