免费美女一级久久久九九,无码影片在线看久久国内

昨天，很多人徹夜未眠 —— 全球科技圈都把目光聚焦在了美國舊金山。

短短 45 分鐘時間里，OpenAI CEO 山姆?奧特曼向我們介紹了迄今為止最強(qiáng)的大模型，和基于它的一系列應(yīng)用，一切似乎就像當(dāng)初 ChatGPT 一樣令人震撼。

OpenAI 在本周一的首個開發(fā)者日上推出了 GPT-4 Turbo，新的大模型更聰明，文本處理上限更高，價格也更便宜，應(yīng)用商店也開了起來。現(xiàn)在，用戶還可以根據(jù)需求構(gòu)建自己的 GPT。

發(fā)布會一開完，人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗(yàn)果然不同凡響。首先是快，快到和以前所有大模型拉開了代差：

然后是功能增多，畫畫的時候，你一有靈感就可以直接說話讓 AI 負(fù)責(zé)實(shí)現(xiàn)：

我直接不裝了，截個圖復(fù)制粘貼別人的網(wǎng)站，生成自己的，只用 40 秒：

利用 ChatGPT 與 Bing 的瀏覽功能以及與 DALL-E 3 圖像生成器的集成，沃頓商學(xué)院教授 Ethan Mollick 分享了一段視頻，展示了他的名為「趨勢分析器」的 GPT 工具，其可查找市場特定細(xì)分市場的趨勢，然后創(chuàng)建新產(chǎn)品的原型圖像。

Octane AI 首席執(zhí)行官 Matt Schlicht 的 Simponize Me GPT 會自動應(yīng)用提示來轉(zhuǎn)換用戶上傳的個人資料照片，生成《辛普森一家》的風(fēng)格，做這個小應(yīng)用只用了不到十分鐘。

GPT-4 Turbo 具有創(chuàng)紀(jì)錄的準(zhǔn)確率，在 PyLLM 基準(zhǔn)上，GPT-4 Turbo 的準(zhǔn)確率是 87%，而 GPT-4 的準(zhǔn)確率是 52%，這是在速度幾乎快了四倍多的情況下（每秒 48 token）實(shí)現(xiàn)的。

至此，生成式 AI 的競爭似乎進(jìn)入了新的階段。很多人認(rèn)為，當(dāng)競爭對手們依然在追求更快、能力更強(qiáng)的大模型時，OpenAI 其實(shí)早就已經(jīng)把所有方向都試過了一遍，這一波更新會讓一大批創(chuàng)業(yè)公司作古。

也有人表示，既然 Agent 是大模型重要的方向，OpenAI 也開出了 Agent 應(yīng)用商店，接下來在智能體領(lǐng)域，我們會有很多機(jī)會。

競爭者們真的無路可走了嗎？價格降低，速度變快以后，大模型的性能還能同時變得更好？這必須要看實(shí)踐，在 OpenAI 的博客中，其實(shí)說法是這樣的：在某些格式的輸出下，GPT-4 Turbo 會比 GPT-4 結(jié)果更好。那么總體情況會如何？

在新模型發(fā)布的 24 小時內(nèi)，就有研究者在 Aider 上進(jìn)行了 AI 生成代碼的能力測試。

在 gpt-4-1106-preview 模型上，僅使用 diff 編輯方法對 GPT-4 模型進(jìn)行基準(zhǔn)測試得出的結(jié)論是：

接下來是使用 whole 和 diff 編輯格式對 GPT-3.5 模型進(jìn)行的基準(zhǔn)測試。結(jié)果表明，似乎沒有一個 gpt-3.5 模型能夠有效地使用 diff 編輯格式，包括最新的 11 月出現(xiàn)的新模型（簡稱 1106）。下面是一些 whole 編輯格式結(jié)果：

這項(xiàng)測試是如何進(jìn)行的呢，具體而言，研究者讓 Aider 嘗試完成 133 個 Exercism Python 編碼練習(xí)。對于每個練習(xí)，Exercism 都提供了一個起始 Python 文件，文件包含所要解決問題的自然語言描述以及用于評估編碼器是否正確解決問題的測試套件。

然后就有了上述結(jié)果。至于 Aider ，對于那些不了解的小伙伴，接下來我們簡單介紹一下。

Aider 是一個命令行工具，可以讓用戶將程序與 GPT-3.5/GPT-4 配對，以編輯本地 git 存儲庫中存儲的代碼。用戶既可以啟動新項(xiàng)目，也可以使用現(xiàn)有存儲庫。Aider 能夠確保 GPT 中編輯的內(nèi)容通過合理的提交消息提交到 git。Aider 的獨(dú)特之處在于它可以很好地與現(xiàn)有的更大的代碼庫配合使用。

簡單總結(jié)就是，借助該工具，用戶可以使用 OpenAI 的 GPT 編寫和編輯代碼，輕松地進(jìn)行 git commit、diff 和撤消 GPT 提出的更改，而無需復(fù)制 / 粘貼，它還具有幫助 GPT-4 理解和修改更大代碼庫的功能。

為了達(dá)到上述功能，Aider 需要能夠準(zhǔn)確地識別 GPT 何時想要編輯用戶源代碼，還需要確定 GPT 想要修改哪些文件并對 GPT 做出的修改進(jìn)行準(zhǔn)確的應(yīng)用。然而，做好這項(xiàng)「代碼編輯」任務(wù)并不簡單，需要功能較強(qiáng)的 LLM、準(zhǔn)確的提示以及與 LLM 交互的良好工具。

操作過程中，當(dāng)有修改發(fā)生時，Aider 會依靠代碼編輯基準(zhǔn)（code editing benchmark）來定量評估修改后的性能。例如，當(dāng)用戶更改 Aider 的提示或驅(qū)動 LLM 對話的后端時，可以通過運(yùn)行基準(zhǔn)測試以確定這些更改產(chǎn)生多少改進(jìn)。

此外還有人使用 GPT-4 Turbo 簡單和其他模型對比了一下美國高考 SAT 的成績：

同樣，看起來聰明的程度并沒有拉開代差，甚至還有點(diǎn)退步。不過必須要指出的是，實(shí)驗(yàn)的樣本數(shù)量很小。

綜上所述，GPT-4 Turbo 的這一波更新更重要的是完善了功能，增加了速度，準(zhǔn)確性是否提高仍然存疑。這或許與整個大模型業(yè)界目前的潮流一致：重視優(yōu)化，面向應(yīng)用。業(yè)務(wù)落地速度慢的公司要小心了。

另一方面，從這次開發(fā)者日的發(fā)布內(nèi)容來看，OpenAI 也從一個極度追求前沿技術(shù)的創(chuàng)業(yè)公司，變得開始關(guān)注起用戶體驗(yàn)和生態(tài)構(gòu)建，更像大型科技公司了。

本文系作者機(jī)器之心授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報道，點(diǎn)擊這里。

快報