圖片由AI生成
1月16日,美團LongCat官宣, LongCat-Flash-Thinking-2601現(xiàn)已開源。
美團表示,作為LongCat-Flash-Thinking模型的升級版,新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調(diào)用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。
據(jù)美團介紹,該模型在工具調(diào)用的泛化能力上優(yōu)勢尤其明顯,在依賴工具調(diào)用的隨機復雜任務中,性能表現(xiàn)超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執(zhí)行任務。
新推出的“重思考”模式,已讓“龍貓”學會了“深思熟慮”再行動。
具體來看,當遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結(jié)歸納”兩步進行:
并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優(yōu)解;總結(jié)歸納階段,則會對多條路徑進行梳理、優(yōu)化與合成,并將優(yōu)化結(jié)果重新輸入,形成閉環(huán)迭代推理,推動思考持續(xù)深化。
除此之外,LongCat團隊在新模型中加入了額外的強化學習環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓LongCat-Flash-Thinking-2601實現(xiàn)“想清楚再行動”的結(jié)果。
經(jīng)評估,LongCat-Flash-Thinking-2601模型在編程、數(shù)學推理、智能體工具調(diào)用、智能體搜索等維度表現(xiàn)優(yōu)異。![]()
LongCat-Flash-Thinking-2601的平均性能比較,圖片來源:美團
為了測試智能體模型泛化能力,團隊提出了一種新的評測方法——通過構(gòu)建一套自動化任務合成流程,支持用戶基于給定關鍵詞,為任意場景隨機生成復雜任務,并為每個生成的任務配備對應的工具集與可執(zhí)行環(huán)境。
由于這類環(huán)境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環(huán)境中的性能表現(xiàn),衡量其泛化能力。
實驗結(jié)果表明,LongCat-Flash-Thinking-2601在大多數(shù)任務中保持領先性能。
對于新模型的技術(shù)思路,LongCat團隊解釋稱,傳統(tǒng)智能體往往在數(shù)個簡單模擬環(huán)境里訓練,這帶來的問題就像只在靶場訓練的士兵,到了真實“戰(zhàn)場”可能會掉鏈子。
而基于“環(huán)境擴展+多環(huán)境強化學習”核心技術(shù),團隊為模型打造了多樣化的“高強度練兵場”,構(gòu)建了多套高質(zhì)量訓練環(huán)境,并在每套環(huán)境中集成60余種工具形成密集依賴關系圖譜與復雜聯(lián)動,支撐起高度復雜的任務場景。
實驗證明,訓練環(huán)境越豐富,模型在未知場景中的泛化能力越強。得益于這套方案,LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調(diào)用等核心基準測試中穩(wěn)居前列。
LongCat團隊稱,在復雜隨機的分布外任務中,LongCat-Flash-Thinking-2601性能優(yōu)于Claude-Opus-4.5-Thinking。(作者|李程程,編輯|李玉鵬)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論