91香蕉国产人妻一区区,五月天激情四射,深爱网

· GPQA Diamond: 這是一個評估模型在通用問題解答能力上的指標。

· AIME 2022-2024: 這是美國數(shù)學(xué)邀請賽(American Invitational Mathematics Examination)的一個分數(shù)段，用于評估模型在數(shù)學(xué)推理和解題能力上的表現(xiàn)。

· Codeforces ELO: 這是編程競賽平臺Codeforces上的一種評分系統(tǒng)，類似于國際象棋中的Elo評級系統(tǒng)，用于評估模型在編程任務(wù)上的表現(xiàn)。

雖然o3-mini專注于推理，但目前它還不具備視覺能力。如果開發(fā)者和用戶需要上傳圖片或文件，仍然需要使用o1。

競爭加劇

o3-mini的發(fā)布標志著OpenAI首次向免費用戶提供推理模型。此前，o1系列模型僅限于ChatGPT Plus、Pro等付費用戶使用，或者通過OpenAI的付費API。

通過2022年11月推出ChatGPT，OpenAI開啟了大語言模型(LLM)聊天機器人的新領(lǐng)域。而在2024年9月，OpenAI推出o1系列模型，正式開創(chuàng)了推理模型這一新類別，采用了新的訓(xùn)練機制和架構(gòu)。

然而，OpenAI并沒有將o1開源，這與其名稱和最初的創(chuàng)立理念相悖。與之相對，DeepSeek的R1模型采用了開源方式，且完全免費，允許全球用戶自由使用、修改和定制。R1模型的訓(xùn)練成本遠低于o1和其他頂級實驗室的模型，因此在消費市場和企業(yè)市場中獲得了廣泛應(yīng)用，甚至OpenAI的投資方微軟和Anthropic的支持者亞馬遜也快速將其添加到自己的云市場中。

DeepSeek還推出了免費的應(yīng)用和網(wǎng)站，并允許用戶對R1模型進行修改和定制，這使得它在消費者和企業(yè)市場迅速崛起。DeepSeek的這種開源政策以及低成本訓(xùn)練，使其成為了一個強有力的競爭者。

ChatGPT中的可用性

o3現(xiàn)在在全球范圍內(nèi)推向ChatGPT Free、Plus、Team和Pro用戶，Enterprise和Education版本將在下周推出。

免費用戶可以通過選擇聊天欄中的“reason(推理)”按鈕或重新生成回答來首次體驗o3-mini。

Plus和Team用戶的消息限制提高了3倍，從每天50條增加到150條。

Pro用戶將能夠無限制使用o3-mini以及一個新的更高推理版本——o3-mini-high。

此外，o3-mini現(xiàn)在支持與搜索功能的集成，用戶將能夠獲得包含相關(guān)網(wǎng)頁鏈接的回答。這個功能仍處于初期階段，OpenAI正在不斷改進推理模型中的搜索能力。

API集成與定價

對于開發(fā)者，o3-mini已通過Chat Completions API、Assistants API和Batch API提供。該模型支持功能調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者消息，便于開發(fā)者將其集成到實際應(yīng)用中。

o3-mini的最大優(yōu)勢之一是其成本效益：它比o1-mini便宜63%，比完整的o1模型便宜93%，每百萬token的進出費用分別為1.10美元/4.40美元(享有50%的緩存折扣)。

盡管如此，DeepSeek的R1模型的API價格仍然更具優(yōu)勢，僅為0.14美元/0.55美元每百萬token進出。但考慮到DeepSeek總部位于中國，涉及到一些國外老生常談的“用戶數(shù)據(jù)流動的安全與地緣政治問題”，OpenAI可能仍將是美國和歐洲一些注重安全的客戶和企業(yè)的首選。

開發(fā)者可以根據(jù)應(yīng)用需求調(diào)整推理難度(低、中、高)，以控制延遲和準確性之間的平衡。

安全性與隱私保護

OpenAI表示，在o3-mini中采用了“深思熟慮對齊”的方法。這意味著模型會思考并理解人類編寫的安全指南，理解這些指南的意圖和預(yù)防的危害，并且會提出自己的方法確保這些危害得到有效避免。OpenAI表示，這樣可以使模型在討論敏感話題時更加寬容，同時保持高安全性。

OpenAI稱，o3-mini在處理安全性和越獄挑戰(zhàn)時，優(yōu)于GPT-4o。該模型在發(fā)布前進行了廣泛的安全性測試。

最近有一些國外的第三方報道指出，DeepSeek的R1模型在50次越獄測試中“全部失敗”，這將使得一些國外媒體宣傳o3-mini在需要高安全性的場合更具優(yōu)勢。

結(jié)語：未來展望

o3-mini的發(fā)布標志著OpenAI進一步努力讓先進的推理AI變得更加普及和高效，特別是在DeepSeek R1等競爭者的壓力下。Google也在推出其競爭性推理模型Gemini 2 Flash Thinking，并擴展了輸入上下文，支持高達100萬個tokens。

OpenAI聚焦于STEM推理和成本效益，旨在擴大AI驅(qū)動的解決方案在消費者和開發(fā)者中的應(yīng)用。

然而，隨著OpenAI不斷擴展雄心，最近宣布的一個由軟銀支持的5000億美元數(shù)據(jù)中心基礎(chǔ)設(shè)施項目Stargate，問題仍然存在：它的戰(zhàn)略是否足以讓這些巨額投資獲得回報?隨著開源模型不斷接近OpenAI的性能并在成本上超越它，OpenAI是否能憑借其安全性、強大的能力、易用的API和用戶友好的界面維持現(xiàn)有客戶，特別是在企業(yè)市場上?我們將繼續(xù)關(guān)注這些發(fā)展。

快報