開源地址:https://github.com/UniPat-AI/UniScientist
Blog: https://unipat.ai/blog/UniScientist
今天很多模型做“研究任務”,只是看起來像在做科研:引用一堆資料、寫一堆邏輯、格式也像論文。
但問題是:它們經(jīng)常停在“敘事推理”、從“結(jié)論”出發(fā)的邏輯陷阱中——說得很像、驗證很少、推導不穩(wěn)、可復現(xiàn)性弱。
UniPat AI在 UniScientist 中直接回應了這一缺口:
僅有30B參數(shù)的 UniScientist 具備了“自主科學研究”的能力——在開放問題里不斷提出、證偽、修正,直到證據(jù)狀態(tài)穩(wěn)定,再把全過程沉淀成結(jié)構(gòu)化成果。
這背后的潛臺詞很直白:真正的科研,不只是把報告寫漂亮;更是把“假設-證據(jù)-驗證”的循環(huán)跑通。
UniScientist 首先把矛頭指向了數(shù)據(jù):如何構(gòu)建高質(zhì)量科研訓練數(shù)據(jù)一直是硬瓶頸?,F(xiàn)有方案幾乎只有兩種極端:
• 純?nèi)斯ぃ荷鷳B(tài)真實、判斷精準,但昂貴、慢、還受限于單一專家的學科邊界;
• 純合成:規(guī)模巨大、成本低,但常缺少可判別的精度和學科落地的真實性。
UniScientist 的關(guān)鍵洞察源于一個被廣泛忽視的不對稱性。
• 大語言模型更擅長生成:能跨學科大規(guī)模地提出候選研究問題和解法草案。
• 人類專家更擅長驗證:鑒別研究的真?zhèn)魏唾|(zhì)量,其成本和難度遠低于從零創(chuàng)造,且能提供高精度的學科把關(guān)。
這種不對稱性指向了一種更高效的分工方式:模型負責規(guī)模與多樣性,人類專家負責質(zhì)量與可驗證性。 這正是 UniScientist 數(shù)據(jù)引擎的核心原則——產(chǎn)出的訓練實例既有廣泛的專業(yè)覆蓋面,又有嚴格的驗證保障。
許多關(guān)于“科研智能”的討論聚焦在更好的工具調(diào)用或更精準的檢索上。UniScientist 則在更本質(zhì)的層面展開工作。團隊將開放式科研過程建模為一個基于兩個基本操作的動態(tài)系統(tǒng):主動證據(jù)整合(Active Evidence Integration) 與 模型溯因(Model Abduction)。
系統(tǒng)的核心是一個不斷演化的“證據(jù)狀態(tài)”,其中證據(jù)被分為兩類。
• Evidence-Grounded(可獨立核驗的證據(jù)):來自外部權(quán)威來源,或內(nèi)部產(chǎn)出但經(jīng)過明確檢查驗證;
• Formally-Derivable(可形式化推導/復現(xiàn)的證據(jù)):通過符號推導、數(shù)值計算、仿真實驗等可復現(xiàn)程序得到。
然后系統(tǒng)循環(huán)執(zhí)行三個動作:
1. 產(chǎn)生假說
2. 獲取外部權(quán)威信息證據(jù)、計算和推導證據(jù)
3. 做溯因更新:讓假說更好解釋當前證據(jù)狀態(tài)
直到證據(jù)足夠完整穩(wěn)定,再把整個研究過程轉(zhuǎn)化成一份嚴謹?shù)目茖W成果。
這一形式化具有重要意義:它把“科研智能”從一個遠大理想,變成了可訓練、可評估、可迭代的對象。
UniScientist 提出了 Evolving Polymathic Synthesis(進化式多學科合成),一個承擔兩項功能的數(shù)據(jù)引擎。
1. 從經(jīng)過專家驗證的科學 Claim 出發(fā),將其擴展為研究級問題——跨越多個相互依賴的子問題,要求實驗設計與推導協(xié)同
2. 同步合成評測 Rubrics。這些 Rubrics 不評估文風或格式等表面質(zhì)量,而是評估具體的科學發(fā)現(xiàn)是否已被達成
這一設計中最具辨識度的特征是:一份開放式科研成果被分解為 N 個封閉的、可獨立驗證的 Rubric 檢查項。
每個 Rubric item 都盡量做到:原子化、客觀、可證據(jù)落地或可形式化推導,并額外強調(diào):
• 一致性(對相同科研成果,重復評測應穩(wěn)定)
• 區(qū)分度(能拉開不同完整度的差異)
• 原子性(單條 rubric 只校驗一個知識點)
當前數(shù)據(jù)集仍在持續(xù)擴展中,已包含超過 4,700 個研究級實例,每個實例附有 20+ 條 Rubric 項,覆蓋 50+ 學科和 400+ 研究方向。專家標注平均每條樣本投入 1-2 小時。學科覆蓋從量子物理和有機化學到社會文化人類學和計算語言學均有涉及。

數(shù)據(jù)集中包含了具備真實科研質(zhì)感的研究問題。下圖展示的是一道生態(tài)學方向的示例,完整案例庫可在 https://unipat.ai/blog/UniScientist 查閱。
這些問題的共同特征在于:沒有任何一道可以通過匹配記憶中的既有答案來直接解決。每一道都要求完整的科研鏈條——文獻調(diào)研、假設形成、實驗或推導設計、分析驗證、以及最終成果的收斂。
UniScientist 引入了一個額外的訓練目標,成果聚合目標:給定同一問題的 N 份候選科研成果,模型學會融合各家優(yōu)點,產(chǎn)出一份更完整、更穩(wěn)健的最終成果。通過 Rubric 閾值的 rejection sampling 來篩選高質(zhì)量參考答案,聚合能力與科研生成能力一同被訓入模型。
這反映了科學研究中的一個現(xiàn)實:對于一個問題,一次嘗試并不一定會帶來最好的成果。這實際上是將“集體科研智能”寫進了訓練過程:
模型不僅學會了產(chǎn)出研究,還學會了比較、取舍、整合與自我進化。
評測結(jié)果引人注目,尤其考慮到模型的規(guī)模。
UniScientist-30B-A3B——一個僅有 3B 激活參數(shù)的小模型——在 FrontierScience-Research 上達到 28.3 分,超越 Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)和 GPT-5.2 xhigh completion mode(25.2)以及工具調(diào)用模式下的 DeepSeek V3.2(26.7)和 Seed 2.0 Pro(26.7)。在成果聚合模式下,得分達到 33.3。
在 FrontierScience-Olympiad 上,啟用工具的 UniScientist 得分 71.0,匹配 Claude Opus 4.5,超越多個其他前沿模型。在多項分布外的基準——DeepResearch Bench、DeepResearch Bench II 和 ResearchRubrics 上——模型的表現(xiàn)與一系列頂級閉源系統(tǒng)相當。
一個尤為重要的發(fā)現(xiàn):即使在無工具的評測條件下,性能仍有顯著提升。 這表明增益并非單純來自更頻繁的工具使用,模型自身的研究推理能力確實通過訓練得到了增強。
所有基準上的結(jié)果指向同一結(jié)論:模型學會的不只是更好地檢索,而是將檢索、推導、驗證和寫作整合為連貫的研究工作流。
科學研究不止于形成一個合理的敘事。許多結(jié)論依賴于可執(zhí)行、可復現(xiàn)的計算與仿真。
UniScientist 集成了代碼解釋器,將研究流程從敘事式推理升級為“測試-修正”的循環(huán):假設不僅被提出,還被實例化為計算實驗——其結(jié)果可以確認、推翻或細化假設。
系統(tǒng)目前的能力主要集中在可復現(xiàn)推理與仿真計算范圍內(nèi)。對真實世界研究資源的編排——可靠地調(diào)度大規(guī)模 GPU 任務、協(xié)調(diào)濕實驗流程——尚未實現(xiàn)。
UniScientist 在 Blog 中也將下一步方向闡述得很清晰:
將框架擴展到對真實實驗與計算基礎設施的受控編排與執(zhí)行,目標是進一步加速科學發(fā)現(xiàn)、推動研究前沿。
以下展示一個UniScientist進行的完整科研推理鏈條,詳細推理內(nèi)容可以在Blog鏈接中查閱:https://unipat.ai/blog/UniScientist
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論