圖片來源@視覺中國

鈦媒體注:本文來源于微信公眾號機(jī)器之心 (ID:almosthuman2014),作者 | 機(jī)器之心,編輯 | 澤南、陳萍,鈦媒體經(jīng)授權(quán)發(fā)布。

昨天,很多人徹夜未眠 —— 全球科技圈都把目光聚焦在了美國舊金山。

短短 45 分鐘時間里,OpenAI CEO 山姆?奧特曼向我們介紹了迄今為止最強(qiáng)的大模型,和基于它的一系列應(yīng)用,一切似乎就像當(dāng)初 ChatGPT 一樣令人震撼。

OpenAI 在本周一的首個開發(fā)者日上推出了 GPT-4 Turbo,新的大模型更聰明,文本處理上限更高,價格也更便宜,應(yīng)用商店也開了起來。現(xiàn)在,用戶還可以根據(jù)需求構(gòu)建自己的 GPT。

根據(jù)官方說法,這一波 GPT 的升級包括:

發(fā)布會一開完,人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗(yàn)果然不同凡響。首先是快,快到和以前所有大模型拉開了代差:

然后是功能增多,畫畫的時候,你一有靈感就可以直接說話讓 AI 負(fù)責(zé)實(shí)現(xiàn):

設(shè)計(jì)個 UI,幾個小時的工作變成幾分鐘:

我直接不裝了,截個圖復(fù)制粘貼別人的網(wǎng)站,生成自己的,只用 40 秒:

利用 ChatGPT 與 Bing 的瀏覽功能以及與 DALL-E 3 圖像生成器的集成,沃頓商學(xué)院教授 Ethan Mollick 分享了一段視頻,展示了他的名為「趨勢分析器」的 GPT 工具,其可查找市場特定細(xì)分市場的趨勢,然后創(chuàng)建新產(chǎn)品的原型圖像。

Octane AI 首席執(zhí)行官 Matt Schlicht 的 Simponize Me GPT 會自動應(yīng)用提示來轉(zhuǎn)換用戶上傳的個人資料照片,生成《辛普森一家》的風(fēng)格,做這個小應(yīng)用只用了不到十分鐘。

GPT-4 Turbo 具有創(chuàng)紀(jì)錄的準(zhǔn)確率,在 PyLLM 基準(zhǔn)上,GPT-4 Turbo 的準(zhǔn)確率是 87%,而 GPT-4 的準(zhǔn)確率是 52%,這是在速度幾乎快了四倍多的情況下(每秒 48 token)實(shí)現(xiàn)的。 

至此,生成式 AI 的競爭似乎進(jìn)入了新的階段。很多人認(rèn)為,當(dāng)競爭對手們依然在追求更快、能力更強(qiáng)的大模型時,OpenAI 其實(shí)早就已經(jīng)把所有方向都試過了一遍,這一波更新會讓一大批創(chuàng)業(yè)公司作古。

也有人表示,既然 Agent 是大模型重要的方向,OpenAI 也開出了 Agent 應(yīng)用商店,接下來在智能體領(lǐng)域,我們會有很多機(jī)會。

競爭者們真的無路可走了嗎?價格降低,速度變快以后,大模型的性能還能同時變得更好?這必須要看實(shí)踐,在 OpenAI 的博客中,其實(shí)說法是這樣的:在某些格式的輸出下,GPT-4 Turbo 會比 GPT-4 結(jié)果更好。那么總體情況會如何?

在新模型發(fā)布的 24 小時內(nèi),就有研究者在 Aider 上進(jìn)行了 AI 生成代碼的能力測試。

在 gpt-4-1106-preview 模型上,僅使用 diff 編輯方法對 GPT-4 模型進(jìn)行基準(zhǔn)測試得出的結(jié)論是:

接下來是使用 whole 和 diff 編輯格式對 GPT-3.5 模型進(jìn)行的基準(zhǔn)測試。結(jié)果表明,似乎沒有一個 gpt-3.5 模型能夠有效地使用 diff 編輯格式,包括最新的 11 月出現(xiàn)的新模型( 簡稱 1106)。下面是一些 whole 編輯格式結(jié)果:

這項(xiàng)測試是如何進(jìn)行的呢,具體而言,研究者讓 Aider 嘗試完成 133 個 Exercism Python 編碼練習(xí)。對于每個練習(xí),Exercism 都提供了一個起始 Python 文件,文件包含所要解決問題的自然語言描述以及用于評估編碼器是否正確解決問題的測試套件。

基準(zhǔn)測試分為兩步:

  1. 第一次嘗試時,Aider 向 GPT 提供要編輯的樁代碼文件以及描述問題的自然語言指令。這些指令反映了用戶如何使用 Aider 進(jìn)行編碼。用戶將源代碼文件添加到聊天中并請求更改,這些更改會被自動應(yīng)用。

  2. 如果測試套件在第一次嘗試后失敗,Aider 會將測試錯誤輸出提供給 GPT,并要求其修復(fù)代碼。Aider 的這種交互式方式非常便捷,用戶使用 /run pytest 之類的命令來運(yùn)行 pytest 并在與 GPT 的聊天中共享結(jié)果。 

然后就有了上述結(jié)果。至于 Aider ,對于那些不了解的小伙伴,接下來我們簡單介紹一下。

Aider 是一個命令行工具,可以讓用戶將程序與 GPT-3.5/GPT-4 配對,以編輯本地 git 存儲庫中存儲的代碼。用戶既可以啟動新項(xiàng)目,也可以使用現(xiàn)有存儲庫。Aider 能夠確保 GPT 中編輯的內(nèi)容通過合理的提交消息提交到 git。Aider 的獨(dú)特之處在于它可以很好地與現(xiàn)有的更大的代碼庫配合使用。

簡單總結(jié)就是,借助該工具,用戶可以使用 OpenAI 的 GPT 編寫和編輯代碼,輕松地進(jìn)行 git commit、diff 和撤消 GPT 提出的更改,而無需復(fù)制 / 粘貼,它還具有幫助 GPT-4 理解和修改更大代碼庫的功能。

為了達(dá)到上述功能,Aider 需要能夠準(zhǔn)確地識別 GPT 何時想要編輯用戶源代碼,還需要確定 GPT 想要修改哪些文件并對 GPT 做出的修改進(jìn)行準(zhǔn)確的應(yīng)用。然而,做好這項(xiàng)「代碼編輯」任務(wù)并不簡單,需要功能較強(qiáng)的 LLM、準(zhǔn)確的提示以及與 LLM 交互的良好工具。

操作過程中,當(dāng)有修改發(fā)生時,Aider 會依靠代碼編輯基準(zhǔn)(code editing benchmark)來定量評估修改后的性能。例如,當(dāng)用戶更改 Aider 的提示或驅(qū)動 LLM 對話的后端時,可以通過運(yùn)行基準(zhǔn)測試以確定這些更改產(chǎn)生多少改進(jìn)。

此外還有人使用 GPT-4 Turbo 簡單和其他模型對比了一下美國高考 SAT 的成績:

同樣,看起來聰明的程度并沒有拉開代差,甚至還有點(diǎn)退步。不過必須要指出的是,實(shí)驗(yàn)的樣本數(shù)量很小。

綜上所述,GPT-4 Turbo 的這一波更新更重要的是完善了功能,增加了速度,準(zhǔn)確性是否提高仍然存疑。這或許與整個大模型業(yè)界目前的潮流一致:重視優(yōu)化,面向應(yīng)用。業(yè)務(wù)落地速度慢的公司要小心了。

另一方面,從這次開發(fā)者日的發(fā)布內(nèi)容來看,OpenAI 也從一個極度追求前沿技術(shù)的創(chuàng)業(yè)公司,變得開始關(guān)注起用戶體驗(yàn)和生態(tài)構(gòu)建,更像大型科技公司了。

再次顛覆 AI 領(lǐng)域的 GPT-5,我們還得再等一等。

參考內(nèi)容

本文系作者 機(jī)器之心 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

07:39

同比大增逾500%,港股今年以來IPO規(guī)模超千億港元

07:36

資金借道寬基產(chǎn)品入市,公募看好權(quán)益資產(chǎn)長期配置價值

07:35

保險資金未受短期情緒擾動,整體倉位變化不大

07:32

銀行理財加碼權(quán)益投資

07:32

無視伊朗否認(rèn),特朗普再稱美伊正在談判

07:30

“十五五”規(guī)劃綱要首次寫入“耐心資本”,多措并舉優(yōu)化投資端生態(tài)

07:29

現(xiàn)貨白銀向上觸及72美元/盎司,日內(nèi)上漲1.19%

07:26

現(xiàn)貨黃金向上觸及4500美元,日內(nèi)上漲0.59%

07:26

伊朗石油部長致信聯(lián)合國,呼吁譴責(zé)美以襲擊伊朗能源設(shè)施

07:23

特朗普稱在對伊行動中已“取得勝利”

07:20

美方向伊朗提出含“15項(xiàng)條件”的和談方案

07:17

在岸人民幣兌美元較上一交易日夜盤收盤跌121點(diǎn)

07:14

微軟將租用曾為甲骨文和OpenAl開發(fā)的德克薩斯州一數(shù)據(jù)中心

07:12

離岸人民幣兌美元較周一紐約尾盤跌97點(diǎn)

07:10

美股收評:三大指數(shù)集體收跌,軟件股大幅下挫

07:06

存儲芯片超級景氣周期延續(xù),漲價潮席卷消費(fèi)電子全產(chǎn)業(yè)鏈

06:59

火星上首次發(fā)現(xiàn)紅寶石

2026-03-24 23:04

國內(nèi)商品期貨夜盤收盤,液化石油氣(LPG)跌超6%

2026-03-24 22:57

德國經(jīng)濟(jì)部長:到2030年將招標(biāo)高達(dá)12吉瓦的陸上風(fēng)電裝機(jī)容量

2026-03-24 22:55

道指率先轉(zhuǎn)漲

掃描下載App