圖片由AI生成

1月16日,美團LongCat官宣, LongCat-Flash-Thinking-2601現(xiàn)已開源。

美團表示,作為LongCat-Flash-Thinking模型的升級版,新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調(diào)用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。

據(jù)美團介紹,該模型在工具調(diào)用的泛化能力上優(yōu)勢尤其明顯,在依賴工具調(diào)用的隨機復雜任務中,性能表現(xiàn)超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執(zhí)行任務。

新推出的“重思考”模式,已讓“龍貓”學會了“深思熟慮”再行動。

具體來看,當遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結(jié)歸納”兩步進行:

并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優(yōu)解;總結(jié)歸納階段,則會對多條路徑進行梳理、優(yōu)化與合成,并將優(yōu)化結(jié)果重新輸入,形成閉環(huán)迭代推理,推動思考持續(xù)深化。

除此之外,LongCat團隊在新模型中加入了額外的強化學習環(huán)節(jié),針對性打磨模型的總結(jié)歸納能力,從而讓LongCat-Flash-Thinking-2601實現(xiàn)“想清楚再行動”的結(jié)果。

經(jīng)評估,LongCat-Flash-Thinking-2601模型在編程、數(shù)學推理、智能體工具調(diào)用、智能體搜索等維度表現(xiàn)優(yōu)異。
LongCat-Flash-Thinking-2601的平均性能比較,圖片來源:美團

LongCat-Flash-Thinking-2601的平均性能比較,圖片來源:美團

為了測試智能體模型泛化能力,團隊提出了一種新的評測方法——通過構(gòu)建一套自動化任務合成流程,支持用戶基于給定關鍵詞,為任意場景隨機生成復雜任務,并為每個生成的任務配備對應的工具集與可執(zhí)行環(huán)境。

由于這類環(huán)境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環(huán)境中的性能表現(xiàn),衡量其泛化能力。

實驗結(jié)果表明,LongCat-Flash-Thinking-2601在大多數(shù)任務中保持領先性能。

對于新模型的技術(shù)思路,LongCat團隊解釋稱,傳統(tǒng)智能體往往在數(shù)個簡單模擬環(huán)境里訓練,這帶來的問題就像只在靶場訓練的士兵,到了真實“戰(zhàn)場”可能會掉鏈子。

而基于“環(huán)境擴展+多環(huán)境強化學習”核心技術(shù),團隊為模型打造了多樣化的“高強度練兵場”,構(gòu)建了多套高質(zhì)量訓練環(huán)境,并在每套環(huán)境中集成60余種工具形成密集依賴關系圖譜與復雜聯(lián)動,支撐起高度復雜的任務場景。

實驗證明,訓練環(huán)境越豐富,模型在未知場景中的泛化能力越強。得益于這套方案,LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調(diào)用等核心基準測試中穩(wěn)居前列。

LongCat團隊稱,在復雜隨機的分布外任務中,LongCat-Flash-Thinking-2601性能優(yōu)于Claude-Opus-4.5-Thinking。(作者|李程程,編輯|李玉鵬)

本文系作者 LCC_Beta版 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

22:31

刷新歷史!中國U23男足進入亞洲杯四強

22:05

海關總署副署長趙增連會見阿聯(lián)酋駐華大使侯賽因·本·伊卜拉欣·哈馬迪

22:04

“太行三兄弟”完成評估驗收,將帶動中國燃氣輪機行業(yè)發(fā)展

22:03

上緯新材回應監(jiān)管問詢函:彭志輝從未在研發(fā)過程中承擔任何角色或發(fā)揮作用

21:55

美光科技擬以18億美元收購力積電位于中國臺灣的一處晶圓設施,以擴充其存儲芯片產(chǎn)能

21:30

馬年春晚完成首次彩排,機器人將再登春晚

21:28

王勝利任一汽-大眾汽車有限公司商務副總經(jīng)理

20:58

阿維塔通報“南寧15輛車連撞事故”:輔助駕駛功能未激活

20:43

科技部部長陰和?。簩⑼苿泳┙蚣?、滬蘇浙皖優(yōu)勢互補,凝聚合力,打造科技強國重要戰(zhàn)略支點

20:42

馬斯克:用于Grok的“Colossus 2”超級計算機已投入運行

20:09

1月17日新聞聯(lián)播速覽20條

19:57

馬斯克:AI5芯片設計已接近完成

19:55

伊朗網(wǎng)絡服務恢復約1小時后再次中斷

19:23

內(nèi)蒙古包頭啟動建設國家級零碳園區(qū)

18:56

《海洋生物多樣性協(xié)定》生效,全球海洋保護迎來歷史性時刻

18:47

2025年廣州國際港中歐班列出口跨境電商貨值超6000萬元

18:46

博鰲亞洲論壇2026年年會將于3月24日至27日舉行

18:43

國家醫(yī)保局與79家醫(yī)院簽約,開展真實世界醫(yī)保綜合價值評價試點

18:41

美商務部長威脅:關于建設存儲芯片(產(chǎn)能)要么在美國本土建設、要么支付100%關稅

17:50

最高法:人民陪審員參與審理孕婦泰國墜崖案等重大案件

掃描下載App