亚洲韩国AV电影,欧美第一黄片特级黄片

如果一個 AI 能夠閱讀整套項目文檔，在復(fù)雜問題上進行長時間推理，并且自己操作電腦完成任務(wù)，它就不再只是一個聊天機器人。

隨著 OpenAI 推出 GPT-5.4 Thinking 與 GPT-5.4 Pro，這種變化正在變得具體。100 萬 Token 上下文、推理時計算模式，以及原生計算機操作能力，第一次在同一代模型中同時出現(xiàn)。

當(dāng)這些能力開始匯合，大模型的角色也在發(fā)生轉(zhuǎn)變——從回答問題，轉(zhuǎn)向直接完成工作。

GPT-5.4：一次圍繞“執(zhí)行能力”的模型升級

在多輪業(yè)內(nèi)傳聞之后，OpenAI 推出了 GPT-5.4 系列模型。與過去幾次升級主要強化聊天體驗或推理能力不同，這一版本的能力組合明顯指向一個更實際的目標(biāo)：讓 AI 更直接地參與真實工作流程。

公開信息顯示，模型的核心能力包括：最高 100 萬 Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生計算機操作能力，以及 Tool Search 工具檢索機制。這些能力并非單點突破，而是圍繞“執(zhí)行能力”的系統(tǒng)性升級。

在桌面任務(wù)基準(zhǔn) OSWorld benchmark 的測試中，模型完成任務(wù)的成功率約為 75%，略高于該 benchmark 的人類測試基線約 72%。而在職業(yè)任務(wù)評估 GDPval benchmark 中，模型在 44 種知識型工作任務(wù)中約 83% 的評分進入專家區(qū)間。

這些指標(biāo)本身或許仍需要更多實際驗證，但它們指向的趨勢非常明確：AI 正在從信息處理工具變成任務(wù)執(zhí)行系統(tǒng)。

長上下文：模型第一次能“讀完整個項目”

企業(yè)在部署大模型時，一直面臨一個結(jié)構(gòu)性限制——上下文窗口。早期模型只能處理有限的信息量，這迫使企業(yè)構(gòu)建復(fù)雜的 Retrieval-Augmented Generation（RAG）系統(tǒng)：文檔被拆分、向量化、索引，再在查詢時重新拼接給模型。

這種架構(gòu)在過去兩年成為 AI 工程的標(biāo)準(zhǔn)方案，但也帶來了新的復(fù)雜度。數(shù)據(jù)被切塊后，上下文關(guān)系容易丟失；檢索系統(tǒng)本身也增加了延遲與維護成本。

GPT-5.4 將上下文窗口擴展到 100 萬 Token。這意味著模型在單次任務(wù)中理論上可以處理完整代碼庫、長期財務(wù)記錄，甚至整個項目文檔集合。

RAG 并不會消失，因為權(quán)限控制、實時數(shù)據(jù)更新以及索引效率仍然是企業(yè)系統(tǒng)不可替代的一部分。但在很多分析型任務(wù)中，超長上下文確實降低了對復(fù)雜檢索架構(gòu)的依賴。

更重要的是，模型開始具備一種過去難以實現(xiàn)的能力：理解完整項目，而不是零散信息片段。

Computer-Use：AI 開始直接操作軟件

如果說長上下文改變的是理解能力，那么 Computer-Use 改變的則是執(zhí)行能力。

在這一模式下，模型可以通過視覺理解軟件界面，并模擬鼠標(biāo)點擊、鍵盤輸入以及應(yīng)用導(dǎo)航等操作。這意味著 AI 不再只通過 API 調(diào)用系統(tǒng)，而是可以像用戶一樣直接操作軟件界面。

這一變化對企業(yè)自動化領(lǐng)域尤其重要。過去二十年，大量企業(yè)流程自動化依賴 Robotic Process Automation（RPA）系統(tǒng)，其核心邏輯是通過腳本執(zhí)行固定步驟，例如錄入數(shù)據(jù)或在系統(tǒng)之間復(fù)制信息。

而具備視覺理解與規(guī)劃能力的 AI，則可能承擔(dān)更復(fù)雜的任務(wù)，例如：

RPA 并不會立即被取代，但 AI 代理已經(jīng)開始進入它們長期占據(jù)的自動化領(lǐng)域。

推理時計算：AI 學(xué)會“慢思考”

GPT-5.4 的另一項關(guān)鍵變化，是 Thinking 模式。這一模式并不是簡單擴大模型規(guī)模，而是在推理階段投入更多計算資源，從而提高復(fù)雜任務(wù)的可靠性。

這代表著大模型發(fā)展的一條重要路線：推理時計算（compute-at-inference）。過去十年，模型能力主要依賴訓(xùn)練階段的大規(guī)模數(shù)據(jù)與算力，但隨著預(yù)訓(xùn)練收益逐漸遞減，越來越多公司開始把算力投入到推理階段。

類似趨勢也出現(xiàn)在其他 AI 公司，例如 Anthropic 的深度推理模式，以及 Google 在復(fù)雜任務(wù)中的推理系統(tǒng)。

這種模式的特點很明顯：響應(yīng)時間更長、計算成本更高，但復(fù)雜任務(wù)的成功率明顯提高。在法律分析、財務(wù)建模或復(fù)雜決策任務(wù)中，這類“慢思考 AI”反而更接近真實的專業(yè)工作方式。

Tool Search：被低估的架構(gòu)升級

相比百萬 Token 與 computer-use，Tool Search 可能是這次發(fā)布中最容易被忽視的一項升級。

過去，當(dāng)模型需要調(diào)用工具時，開發(fā)者通常必須把所有工具說明都加載進提示詞中。這不僅占用上下文空間，也增加了 Token 成本。

Tool Search 改變了這一機制：模型可以在需要時檢索工具定義，而不是預(yù)加載全部工具。

在多工具系統(tǒng)中，這種方式可顯著減少工具相關(guān)的 Token 消耗。對于構(gòu)建復(fù)雜 AI 系統(tǒng)的開發(fā)者而言，這類架構(gòu)優(yōu)化往往比單純提升模型能力更重要。

因為真正的大規(guī)模 AI 應(yīng)用，通常由幾十甚至上百個工具共同組成。

AI 競爭的真正焦點正在改變

如果把這些變化放在一起觀察，就會發(fā)現(xiàn) AI 競爭的重心正在發(fā)生變化。

過去幾年，大模型競爭主要集中在規(guī)模、參數(shù)與價格。但現(xiàn)在，競爭正在逐漸轉(zhuǎn)向另一件事情：誰能讓 AI 真正完成任務(wù)。

這場競爭的終點，很可能不是更聰明的聊天機器人，而是一種新的軟件形態(tài)。

一種可以理解任務(wù)、規(guī)劃步驟并執(zhí)行操作的 AI 工作代理。

軟件范式正在變化

從更長的上下文，到更強的推理，再到直接操作軟件界面，大模型正在同時獲得三種能力：理解信息、思考問題、執(zhí)行操作。

當(dāng)這三種能力結(jié)合在一起時，AI 就不再只是軟件的一個接口，而可能逐漸成為新的軟件平臺。

在這種結(jié)構(gòu)下，大模型不僅會改變搜索、寫作或編程工具，還可能重新塑造企業(yè)軟件的基本形態(tài)。

問題已經(jīng)不再是 AI 能否理解工作。而是 AI 何時開始真正接管工作流程。（本文首發(fā)鈦媒體App , 作者｜硅谷Tech news，編輯｜秦聰慧）

快報

2026-03-23 22:53

以高級官員：伊朗和美國本周將在巴基斯坦舉行會談

2026-03-23 22:43

摩根大通為藝電收購案啟動80億美元垃圾債券發(fā)售

2026-03-23 22:41

阿聯(lián)酋阿布扎比國家石油公司CEO：世界關(guān)鍵航道必須保持暢通，霍爾木茲海峽就是其中之一

2026-03-23 22:38

豫園股份：2025年凈利潤虧損48.97億元

2026-03-23 22:32

以媒稱美方同伊朗議長進行會談

2026-03-23 22:31

港股IPO：華勤技術(shù)股份有限公司遞表港交所

2026-03-23 22:27

現(xiàn)貨白銀日內(nèi)漲幅擴大至4%

2026-03-23 22:25

現(xiàn)貨黃金重新站上4500美元

2026-03-23 22:20

現(xiàn)貨白銀漲超3%，上破70美元/盎司

2026-03-23 22:17

特朗普稱同伊朗已形成協(xié)議要點

2026-03-23 22:07

澳未來數(shù)周將面臨石油供應(yīng)“關(guān)鍵時刻”

2026-03-23 22:02

印度汽車產(chǎn)業(yè)因“氣荒”面臨供應(yīng)鏈中斷風(fēng)險

2026-03-23 22:00

外交部副部長馬朝旭會見美國企業(yè)家

2026-03-23 21:59

中概指數(shù)漲幅擴大至超1%

2026-03-23 21:59

市場傳聞碳酸鋰期貨交割品合格率僅30%？廣期所工作人員回應(yīng)：交割品均合格，滿足質(zhì)量要求

2026-03-23 21:55

中小險資減倉導(dǎo)致A股回調(diào)？業(yè)內(nèi)稱影響有限，整體加倉為主

2026-03-23 21:55

美股漲幅擴大，納斯達克指數(shù)漲超2%

2026-03-23 21:45

美股新能源汽車概念股盤初紛紛上漲，小鵬汽車漲超5%

2026-03-23 21:39

特朗普稱同伊朗談判“進展非常順利”

2026-03-23 21:38

美股郵輪、航空股盤初集體走高