“幫我查一下最近三個(gè)月AI領(lǐng)域的高管變動(dòng),對(duì)比5個(gè)不同背景的信源,列出已知事實(shí)和矛盾點(diǎn),給出信度評(píng)分。”

根據(jù)騰訊內(nèi)部對(duì)Hy3 preview 的功能定位——多步驟、多信源、需自主規(guī)劃,筆者自設(shè)了這樣一句測(cè)試指令。模型在約7分鐘內(nèi)完成了多輪搜索、信息交叉驗(yàn)證和結(jié)構(gòu)化輸出。

這只是其中一個(gè)典型場(chǎng)景。筆者本次共測(cè)試了三個(gè)場(chǎng)景,分別是多信源核驗(yàn)、文檔可視化、深度研究三個(gè)維度,從不同切面評(píng)估這款產(chǎn)品在知識(shí)工作場(chǎng)景中的實(shí)用性和邊界。

背景與產(chǎn)品解析

2025年以來(lái),中國(guó)大模型廠商的敘事出現(xiàn)了一次集體轉(zhuǎn)向。頭部廠商相繼從“對(duì)標(biāo)GPT-4”“刷新基準(zhǔn)測(cè)試榜單”的軍備競(jìng)賽,轉(zhuǎn)向“在真實(shí)業(yè)務(wù)場(chǎng)景中跑通”“降低單位任務(wù)成本”的務(wù)實(shí)路徑。

騰訊混元團(tuán)隊(duì)在這一背景下,選擇了一個(gè)明確的產(chǎn)品定位:不追參數(shù)第一,聚焦實(shí)用性和性價(jià)比。

混元團(tuán)隊(duì)近期多次提及“下半場(chǎng)”概念,首席AI科學(xué)家姚順雨曾表示:“AI發(fā)展的上半場(chǎng),核心是訓(xùn)練大于評(píng)估;下半場(chǎng),評(píng)估大于訓(xùn)練。”姚順雨認(rèn)為,上半場(chǎng)的競(jìng)爭(zhēng)在于誰(shuí)能把模型訓(xùn)練得更大、更強(qiáng),成為頂級(jí)的“做題家”;而下半場(chǎng)的競(jìng)爭(zhēng)在于誰(shuí)能讓模型在真實(shí)業(yè)務(wù)場(chǎng)景、真實(shí)系統(tǒng)中經(jīng)得起檢驗(yàn),成為真正的“上下文學(xué)習(xí)者”——即使用戶給足了信息,模型依然需要具備從中學(xué)習(xí)并應(yīng)用的能力。

在Hy3 preview發(fā)布時(shí),姚順雨進(jìn)一步表示:“Hy3 preview是混元大模型重建的第一步。我們希望通過(guò)這次開(kāi)源和發(fā)布,獲得來(lái)自開(kāi)源社區(qū)和用戶的真實(shí)反饋,幫助我們提升Hy3正式版的實(shí)用性。”

這一理念直接指向了當(dāng)前大模型落地的核心痛點(diǎn):不是模型不夠強(qiáng),而是強(qiáng)在“記憶”、弱在“應(yīng)用”。

本次騰訊發(fā)布的 Hy3 preview,正是混元團(tuán)隊(duì)在這一理念下推出的第一個(gè)版本——騰訊混元在團(tuán)隊(duì)、架構(gòu)、基礎(chǔ)設(shè)施重新整合后的產(chǎn)物。

根據(jù)官方披露,2026年2月,騰訊混元重建了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施,并確立了模型追求實(shí)用性的三個(gè)原則:其一,能力體系化,不推崇"偏科",即使是代碼智能體的單一應(yīng)用,也涉及推理、長(zhǎng)文、指令、對(duì)話、代碼、工具等多種能力的深度協(xié)同;其二,評(píng)測(cè)真實(shí)性,主動(dòng)跳出易被"刷榜"的公開(kāi)榜單,通過(guò)自建題目、最新考試、人工評(píng)測(cè)、產(chǎn)品眾測(cè)等多種方式評(píng)估模型的"真實(shí)戰(zhàn)斗力";其三,性價(jià)比追求,深度協(xié)同模型架構(gòu)和推理框架的設(shè)計(jì),大幅降低任務(wù)成本,讓智能"用得起、用得好"。

根據(jù)官方披露的信息,Hy3 preview 的核心參數(shù)如下:

295B總參/21B激活參數(shù)的組合,意味著 Hy3 preview 處于“中型模型”區(qū)間。相比千億參數(shù)以上的超大模型,這一尺寸在部署成本和推理效率上具備明顯優(yōu)勢(shì)。

MoE(Mixture of Experts)的核心邏輯是“按需激活”——每次推理只調(diào)用部分專家網(wǎng)絡(luò)。這一設(shè)計(jì)可以實(shí)現(xiàn)“參數(shù)量大但推理成本可控”的效果,符合“實(shí)用性”和“性價(jià)比”的定位。

Hy3 preview 聲稱實(shí)現(xiàn)了快慢思考的融合,即在簡(jiǎn)單任務(wù)上快速響應(yīng),在復(fù)雜任務(wù)上啟動(dòng)深度推理。256K(約25萬(wàn)Token)的上下文窗口,在同尺寸模型中處于較高水平。官方將其定位為"混元迄今最智能的模型",Hy3 preview 于4月23日正式發(fā)布并同步開(kāi)源,在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼、智能體等能力及推理性能上實(shí)現(xiàn)了大幅提升。

實(shí)測(cè)驗(yàn)證

本次評(píng)測(cè)選取三個(gè)典型場(chǎng)景,事實(shí)審計(jì)員、文檔可視化和深度研究。

事實(shí)審計(jì)員

任務(wù)類型:多信源交叉核驗(yàn)

測(cè)試指令

調(diào)研關(guān)于“最近三個(gè)月AI領(lǐng)域高管變動(dòng)”的傳聞,對(duì)比至少5個(gè)不同背景的權(quán)威信源,列出已知事實(shí)和邏輯沖突點(diǎn),并給出信度評(píng)分。

執(zhí)行結(jié)果

執(zhí)行耗時(shí):約7分鐘

信源覆蓋:CNBC(權(quán)威財(cái)經(jīng))、WIRED(科技深度)、The Verge(科技媒體)、鈦媒體等(中文科技財(cái)經(jīng))、Mint(國(guó)際科技)

評(píng)測(cè)維度評(píng)分

實(shí)測(cè)發(fā)現(xiàn)的主要事件

1. OpenAI高管離職潮(高信度):Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日離職,Sora關(guān)停,Prism項(xiàng)目終止并入Codex

2. xAI創(chuàng)始人集體離職(中等信度):2026年2-3月,11位聯(lián)合創(chuàng)始人全部離職

3. 理想汽車高管變動(dòng)(中等信度):郎咸朋于2026年2月14日離職

4. 蘋果CEO更替(待驗(yàn)證):約翰·特納斯接替庫(kù)克,英文主流媒體未廣泛報(bào)道,信源可靠性存疑

結(jié)論:模型在多信源檢索和結(jié)構(gòu)化輸出方面表現(xiàn)穩(wěn)定,但在信息交叉驗(yàn)證時(shí)存在“收得多、核得少”的傾向——對(duì)可疑信息(如"蘋果CEO更替"缺乏英文信源佐證)未能主動(dòng)標(biāo)注風(fēng)險(xiǎn)。但同時(shí)也未能識(shí)別蘋果CEO更替這一信息實(shí)際上可信度較高,該信息蘋果官網(wǎng)已經(jīng)進(jìn)行了官宣。這一能力短板在嚴(yán)肅的事實(shí)核查場(chǎng)景中需要關(guān)注。

文檔可視化

任務(wù)類型:財(cái)報(bào)PDF轉(zhuǎn)動(dòng)態(tài)儀表盤

測(cè)試指令

將附件的騰訊2025年年度財(cái)務(wù)報(bào)告PDF轉(zhuǎn)化為一個(gè)深色主題HTML動(dòng)態(tài)儀表盤,具體要求如下:

核心約束:

嚴(yán)格基于年報(bào)原文數(shù)據(jù),禁止引入任何外部信息

如年報(bào)中未提及某項(xiàng)數(shù)據(jù),明確標(biāo)注"年報(bào)未披露"而非虛構(gòu)

所有數(shù)字以年報(bào)為準(zhǔn),不進(jìn)行二次計(jì)算

數(shù)據(jù)分析要求:

提取近三年核心財(cái)務(wù)數(shù)據(jù)(營(yíng)收/凈利潤(rùn)/毛利率),做三年對(duì)比

分析主要業(yè)務(wù)板塊的收入結(jié)構(gòu)(按業(yè)務(wù)線拆分)

標(biāo)注關(guān)鍵財(cái)務(wù)指標(biāo)的變化趨勢(shì)(增長(zhǎng)/下降/持平)

視覺(jué)要求:

深色主題,專業(yè)金融風(fēng)格(參考彭博終端配色)

數(shù)字入場(chǎng)動(dòng)畫(huà):關(guān)鍵數(shù)據(jù)從0滾動(dòng)增長(zhǎng)至實(shí)際值(數(shù)字脈動(dòng)效果)

交互效果:鼠標(biāo)懸停關(guān)鍵指標(biāo)時(shí)顯示詳細(xì)數(shù)據(jù)(決策艙掃描效果)

包含數(shù)據(jù)來(lái)源標(biāo)注:每項(xiàng)數(shù)據(jù)標(biāo)注對(duì)應(yīng)年報(bào)頁(yè)碼

輸出要求:

單HTML文件,內(nèi)嵌CSS和JavaScript

響應(yīng)式設(shè)計(jì),適配PC端展示

代碼結(jié)構(gòu)清晰,便于后續(xù)修改

執(zhí)行結(jié)果

執(zhí)行耗時(shí):約20分鐘

輸出成果:騰訊2025年年報(bào)HTML動(dòng)態(tài)儀表盤

成果截圖(部分):

評(píng)測(cè)維度評(píng)分

結(jié)論:AI輔助財(cái)經(jīng)內(nèi)容生產(chǎn)正從“文本生成”向“數(shù)據(jù)可視化自動(dòng)化”進(jìn)階。該工具在數(shù)據(jù)處理、視覺(jué)呈現(xiàn)、交互設(shè)計(jì)三個(gè)層面的完成度已達(dá)到可發(fā)布至財(cái)經(jīng)媒體報(bào)道的合格線。推薦指數(shù)4.5/5.0。

可優(yōu)化方向

三年對(duì)比數(shù)據(jù)可視化不足,缺乏長(zhǎng)期趨勢(shì)折線圖;

業(yè)務(wù)分部占比缺乏餅圖或堆疊柱狀圖;

移動(dòng)端適配有待完善。

深度研究

任務(wù)類型:產(chǎn)業(yè)研究報(bào)告生成

測(cè)試指令

以“AI訓(xùn)練成本下降趨勢(shì)及其對(duì)產(chǎn)業(yè)格局的影響”為主題,進(jìn)行深度研究分析,輸出結(jié)構(gòu)化報(bào)告,要求覆蓋成本驅(qū)動(dòng)因素、數(shù)據(jù)支撐、產(chǎn)業(yè)格局影響,投資機(jī)會(huì)與風(fēng)險(xiǎn)、未來(lái)趨勢(shì)判斷,區(qū)分事實(shí)陳述和觀點(diǎn)分析,對(duì)關(guān)鍵數(shù)據(jù)注明來(lái)源。

執(zhí)行結(jié)果

執(zhí)行耗時(shí):約5分鐘

信源覆蓋:共引用6個(gè)一手信源,包括Stanford HAI 2025報(bào)告、Epoch AI研究論文(arXiv:2405.21015)、央視新聞報(bào)道、中國(guó)信通院報(bào)告等

報(bào)告規(guī)模:約4500字,包含3張數(shù)據(jù)表格、6個(gè)主要章節(jié)、20+個(gè)細(xì)分論點(diǎn)

報(bào)告地址:Tencent Cloud CodeBuddy

評(píng)測(cè)維度評(píng)分

結(jié)論:模型在深度研究的框架搭建、信源檢索與標(biāo)注、結(jié)構(gòu)化輸出上表現(xiàn)優(yōu)秀,能夠生成符合專業(yè)標(biāo)準(zhǔn)的研究報(bào)告。但在產(chǎn)業(yè)洞察的深度(如對(duì)中國(guó)AI芯片廠商的具體分析)、風(fēng)險(xiǎn)提示的全面性上仍有提升空間。

適用場(chǎng)景建議

? 快速搭建研究報(bào)告框架

? 檢索和整理公開(kāi)信源

? 生成結(jié)構(gòu)化分析報(bào)告

?? 需謹(jǐn)慎:具體投資標(biāo)的推薦、未公開(kāi)數(shù)據(jù)的推測(cè)、前瞻性判斷(需人工復(fù)核)

產(chǎn)品組合拳:模型+Agent框架

根據(jù)騰訊內(nèi)部測(cè)試的公開(kāi)反饋,Hy3 preview 在以下四個(gè)緯度獲得了相對(duì)積極的評(píng)價(jià):

在國(guó)內(nèi)大模型競(jìng)爭(zhēng)格局中,混元本次的定位可以概括為:“不做第一,但求好用”。從參數(shù)規(guī)???,295B總參/21B激活參數(shù)定位于中等尺寸區(qū)間,與“大杯”產(chǎn)品存在差異,但規(guī)??刂茙?lái)了更好的推理效率。

從場(chǎng)景定位看,Coding和Agent場(chǎng)景是明確的主打方向。這一選擇與Agent經(jīng)濟(jì)的崛起趨勢(shì)相吻合——當(dāng)模型的價(jià)值越來(lái)越多地體現(xiàn)在“作為Agent的大腦”而非“直接回答用戶問(wèn)題”時(shí),響應(yīng)速度、任務(wù)完成率、多步驟穩(wěn)定性,比單純的基準(zhǔn)測(cè)試分?jǐn)?shù)更重要。

從生態(tài)角度看,混元與WorkBuddy的結(jié)合構(gòu)成了“模型+Agent框架”的組合,模型能力可以在真實(shí)業(yè)務(wù)場(chǎng)景中持續(xù)錘煉,場(chǎng)景反饋可以持續(xù)反哺模型優(yōu)化。

官方數(shù)據(jù)顯示,在CodeBuddy與WorkBuddy產(chǎn)品上,Hy3 preview首token延遲降低54%、端到端時(shí)長(zhǎng)降低47%、成功率提升至99.99%+。實(shí)際用戶環(huán)境中,已穩(wěn)定驅(qū)動(dòng)最長(zhǎng)495步的復(fù)雜Agent工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識(shí)檢索、MCP工具鏈編排等多樣化辦公場(chǎng)景。整體推理效率提升40%,成本相比上一代模型大幅下降。

在商業(yè)化定價(jià)上,騰訊云TokenHub平臺(tái)顯示,Hy3 preview輸入價(jià)格最低1.2元/百萬(wàn)tokens,輸出價(jià)格最低4元/百萬(wàn)tokens,并推出個(gè)人版最低28元/月的Token Plan套餐——這為評(píng)測(cè)稿此前提及的"性價(jià)比優(yōu)勢(shì)"提供了可量化的基準(zhǔn)參照。

目前,Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂(lè)享等產(chǎn)品首發(fā)上線,微信公眾號(hào)、和平精英、騰訊新聞等多個(gè)主線產(chǎn)品也在陸續(xù)接入。

Hy3 preview 的發(fā)布,更像是一個(gè)信號(hào),而非一個(gè)結(jié)論。它標(biāo)志著騰訊混元在經(jīng)歷團(tuán)隊(duì)重組、架構(gòu)重構(gòu)后,選擇了一條更務(wù)實(shí)的路徑——不再追逐榜單上的“第一”,而是追求實(shí)際場(chǎng)景中的“好用”。

在本文測(cè)試未涉及到的性價(jià)比中,官方公布的內(nèi)部測(cè)試可作為參考:騰訊內(nèi)部測(cè)試顯示,騰訊文檔AI PPT生成成功率提升20%、耗時(shí)縮短20%;和平精英AI NPC角色扮演穩(wěn)定性獲得業(yè)務(wù)團(tuán)隊(duì)高度評(píng)價(jià);QQ AI助手?jǐn)?shù)學(xué)推理表現(xiàn)提升尤為明顯;元寶深度Co-Design后用戶意圖理解與內(nèi)容質(zhì)量全面提升。

上述數(shù)據(jù)為混元“性價(jià)比優(yōu)勢(shì)”提供了一定的內(nèi)部佐證,但跨廠商的橫向?qū)Ρ热孕柙诤罄m(xù)評(píng)測(cè)中進(jìn)一步驗(yàn)證。

結(jié)語(yǔ)

從更宏觀的視角看,Hy3 preview 的出現(xiàn),是整個(gè)大模型行業(yè)轉(zhuǎn)向的一個(gè)縮影。

過(guò)去兩年,國(guó)內(nèi)外的大模型競(jìng)爭(zhēng)本質(zhì)上是一場(chǎng)基礎(chǔ)設(shè)施競(jìng)賽——誰(shuí)能訓(xùn)得更大、算得更快、數(shù)據(jù)更多,誰(shuí)就站在了排行榜的前列。但這場(chǎng)競(jìng)賽正在迎來(lái)邊際效益遞減的節(jié)點(diǎn):當(dāng)GPT-4級(jí)別的能力已經(jīng)"白菜化",當(dāng)推理成本以每年數(shù)倍的速度下降,純粹的參數(shù)軍備競(jìng)賽開(kāi)始失去意義

下一個(gè)競(jìng)爭(zhēng)維度,正在轉(zhuǎn)向任務(wù)完成率、工具調(diào)用穩(wěn)定性、長(zhǎng)程推理的可靠性——換句話說(shuō),是“能不能真正干活”,而不是“能不能在考卷上拿高分”。這恰好是 Hy3 preview 所押注的方向。

對(duì)于騰訊混元來(lái)說(shuō),這次重新出發(fā)面臨的挑戰(zhàn)不只是技術(shù)層面的。在競(jìng)爭(zhēng)對(duì)手已積累大量真實(shí)用戶反饋的背景下,如何快速積累高質(zhì)量的任務(wù)數(shù)據(jù)、如何在騰訊龐大的業(yè)務(wù)生態(tài)中找到“模型錘煉”的最佳路徑,將直接決定混元能否在下半場(chǎng)建立真正的差異化。

WorkBuddy 作為面向知識(shí)工作者的 Agent 框架,理論上是一個(gè)理想的“練兵場(chǎng)”——用戶的真實(shí)任務(wù)場(chǎng)景足夠復(fù)雜、反饋?zhàn)銐蛑苯?。但換個(gè)角度來(lái)看,“模型在框架中不斷進(jìn)化”這一愿景的實(shí)現(xiàn),還取決于數(shù)據(jù)閉環(huán)的質(zhì)量、人工反饋的密度,以及騰訊是否愿意在這條路上保持足夠的耐心。

Hy3 preview 是第一步,能否兌現(xiàn)“務(wù)實(shí)主義”的承諾,要看后續(xù)正式版本的真實(shí)表現(xiàn)——以及它在更大規(guī)模用戶場(chǎng)景中經(jīng)受檢驗(yàn)之后的樣子。(本文首發(fā)鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)

作品聲明:內(nèi)容由AI生成
本文系作者 AGI-Signal 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

20:17

4月23日新聞聯(lián)播速覽26條

20:15

谷歌云與CVC達(dá)成合作,加速智能體AI轉(zhuǎn)型

20:14

伊朗奧委會(huì)秘書(shū)長(zhǎng):伊朗隊(duì)尚未確定參加美加墨世界杯

20:13

沃爾核材:擬分拆控股子公司上??铺刂帘苯凰鲜?/p>

20:13

國(guó)軒高科:控股子公司與新智合能簽署增資協(xié)議,共同投資用于新型鋰離子電池(20GWh)智造基地項(xiàng)目

20:12

雀巢同意將Blue Bottle售予瑞幸咖啡股東大鉦資本

20:10

大智慧:第一季度凈虧損2958.54萬(wàn)元,同比轉(zhuǎn)虧

20:10

大族激光漲停創(chuàng)新高,廣發(fā)證券上海浦東新區(qū)東方路凈買入8.06億元

20:09

新華網(wǎng):2025年凈利3.29億元,同比增40.74%

20:07

歐盟批準(zhǔn)對(duì)俄羅斯實(shí)施第20輪制裁

20:05

創(chuàng)源股份回應(yīng)美國(guó)關(guān)稅返還事項(xiàng):已注意到相關(guān)市場(chǎng)信息,目前尚無(wú)明確結(jié)論

20:04

莫高股份:自4月27日開(kāi)市起復(fù)牌并實(shí)施退市風(fēng)險(xiǎn)警示,股票簡(jiǎn)稱變更為“*ST莫高”

20:03

剎車功能或喪失,大眾在美召回18853輛汽車

20:01

三安光電:3.2T光模塊用光芯片產(chǎn)品處于研發(fā)階段

20:00

*ST華嶸:公司股票可能觸發(fā)財(cái)務(wù)類終止上市情形

19:57

永安期貨:一季度歸母凈利潤(rùn)1.94億元,同比增加506.59%

19:56

商務(wù)部:一季度重點(diǎn)平臺(tái)智能眼鏡銷售額增長(zhǎng)4.6倍

19:52

華為乾崑智駕ADS 5發(fā)布

19:51

雙杰電氣:一季度凈利潤(rùn)2.81億元,同比增長(zhǎng)29615%

19:51

香農(nóng)芯創(chuàng):第一季度凈利潤(rùn)同比增長(zhǎng)7835%,電子元器件產(chǎn)品銷售規(guī)模擴(kuò)大

掃描下載App