(1)Gemini 3's secret:Scaling is still a greenfield

Gemini 3上線以來,幾乎實(shí)現(xiàn)了全面屠榜,尤其在多模態(tài)和深度推理領(lǐng)域無人能敵。

我實(shí)測(cè)下來,Gemini 3在投研領(lǐng)域比上一代模型而言,無論是推理深度、思考邏輯完備性、取數(shù)精準(zhǔn)度等方面都有了不小的提升。

不久之后大家就能在我們的AI投研工具AlphaEngine上體驗(yàn)到我描述的感受。

Gemini 3為什么能取得這么大的突破?

來聽聽Gemini團(tuán)隊(duì)的負(fù)責(zé)人Oriol Vinyals的最新揭秘。

沒錯(cuò),Gemini 3背后的秘密,就是預(yù)訓(xùn)練和后訓(xùn)練的Scaling仍然有著較大的空間。

樸素的答案往往最接近真相。

如果總結(jié)本輪AI革命的核心,那就是“聚焦一點(diǎn),登峰造極”。

GPT模型的本質(zhì),是把“智能”抽象成“根據(jù)上文預(yù)測(cè)下一個(gè)token”。

在此基礎(chǔ)上,不斷擴(kuò)大數(shù)據(jù)、算力,最后從這個(gè)簡(jiǎn)單到不能再簡(jiǎn)單的單一任務(wù)中,實(shí)現(xiàn)智能的泛化。

這是一種把一切非標(biāo)復(fù)雜需求轉(zhuǎn)化為簡(jiǎn)單標(biāo)準(zhǔn)任務(wù)的思想,是一種把一切問題轉(zhuǎn)化成計(jì)算問題的哲學(xué)。

(2)情感是人類內(nèi)置的價(jià)值函數(shù)

昨天Ilya參加了一個(gè)訪談,干貨很多。網(wǎng)上流傳著一些AI會(huì)議摘要,存在著一定的誤導(dǎo)性,建議大家都去聽聽原文,有不少insights,這里我總結(jié)幾個(gè)對(duì)我比較有啟發(fā)性的觀點(diǎn),談?wù)勎业睦斫狻?/p>

人類的學(xué)習(xí)方式和目前大模型的學(xué)習(xí)方式存在顯著的差異,二者差異背后的原因,可能是下一輪AI算法創(chuàng)新的根源所在。

在被問到目前Ilya團(tuán)隊(duì)在AI算法創(chuàng)新上的最新進(jìn)展時(shí),Ilya舉了一個(gè)耐人尋味的例子。

多年前,Ilya接觸過一個(gè)因?yàn)槟X損傷失去情感處理能力的個(gè)體。

正常人能夠感知到的喜怒哀樂,他都感受不到。

我們可能以為,情感的缺失對(duì)日常生活影響不大,但是事實(shí)恰恰相反。

雖然這位患者能保持正常的語言能力,但他卻在任何decision-making問題上,表現(xiàn)出極大的能力缺失。

比如他可能會(huì)因?yàn)樘暨x哪一雙襪子而耗費(fèi)數(shù)個(gè)小時(shí),或者經(jīng)常做出災(zāi)難性的財(cái)務(wù)決策。

因此Ilya提出一個(gè)猜想:如果把人類的學(xué)習(xí)過程類比為RL的話,情感(emotion)可能就是人類的“內(nèi)置價(jià)值函數(shù)”。

對(duì)于AI模型而言,價(jià)值函數(shù)的作用在于能夠在解決任務(wù)的過程中,提供前置的反饋信號(hào)。

比如當(dāng)你探索決策樹的過程中,在1000步之后發(fā)現(xiàn)這條路徑并不可行時(shí),你會(huì)學(xué)到一個(gè)經(jīng)驗(yàn)教訓(xùn),下次遇到類似的問題時(shí),即使在1000步之前,你也可以預(yù)見到1000步之后的結(jié)果,所以你會(huì)做出另一個(gè)選擇。

這種RL中價(jià)值函數(shù)的學(xué)習(xí)反饋,在人類身上被歸納為“經(jīng)驗(yàn)教訓(xùn)”,具體體現(xiàn)為喜怒哀樂等“情感表現(xiàn)”。

我再舉個(gè)例子,假設(shè)你在工作生活中遇到一個(gè)爛人,最開始你可能沒有明顯的感受,但是隨著相處的時(shí)間越來越久,你發(fā)現(xiàn)對(duì)方身上的存在種種問題,最終你決定遠(yuǎn)離他。

那么當(dāng)你未來再遇到另一個(gè)人時(shí),如果他身上有著和之前你接觸過的爛人有著類似的品行特征時(shí),你會(huì)不自覺的出現(xiàn)“厭惡”的情緒,驅(qū)使你直接遠(yuǎn)離他,而不用再像第一個(gè)人一樣,相處幾年后再做出遠(yuǎn)離的決定。

從個(gè)體的微觀尺度上來看,這個(gè)過程是“經(jīng)驗(yàn)教訓(xùn)”的總結(jié)與成長(zhǎng)。

從人類的中觀尺度上來看,這個(gè)過程是群體“文化”的傳承與發(fā)展。

從生物的宏觀尺度上來看,這個(gè)過程是“進(jìn)化”中的優(yōu)勝劣汰,適者生存。

(3)Benchmark與現(xiàn)實(shí)的差距:泛化能力不足

Ilya直言當(dāng)前AI模型在各種benchmark上表現(xiàn)優(yōu)異,甚至能輕松通過很難的測(cè)評(píng)集,但在實(shí)際任務(wù)中的表現(xiàn)卻差強(qiáng)人意,二者形成了明顯的矛盾。

以coding為例,雖然目前的大模型在Aider、SWE等有一定難度的coding benchmark上表現(xiàn)得非常好,但大家實(shí)際使用AI來vibe coding時(shí),經(jīng)常會(huì)遇到一些尷尬的情況。

比如,當(dāng)你指出AI生成的代碼存在某個(gè)bug時(shí),模型會(huì)承認(rèn)問題并嘗試修復(fù),但修復(fù)過程中往往會(huì)引入新的bug。

當(dāng)用戶指出新bug時(shí),AI會(huì)承認(rèn)錯(cuò)誤,并恢復(fù)之前的舊bug,導(dǎo)致新舊bug交替出現(xiàn),讓嘗試vibe coding的工程師們十分苦惱。

大家只要試過vibe coding,一定對(duì)Ilya的這段描述感同身受。

為什么會(huì)出現(xiàn)這種差異呢?Ilya給了一個(gè)很形象的解釋。

假設(shè)有兩個(gè)學(xué)生,學(xué)生A以成為頂尖coding競(jìng)賽程序員為目標(biāo),通過10000小時(shí)的專項(xiàng)訓(xùn)練,不斷刷題最終成為了頂尖競(jìng)賽高手。

學(xué)生B也想在競(jìng)賽中得獎(jiǎng),但他只用100個(gè)小時(shí)進(jìn)行專項(xiàng)訓(xùn)練。

假如兩位學(xué)生最后在競(jìng)賽中得分將近,那么誰在將來的職業(yè)發(fā)展上有更大的潛力呢?肯定是學(xué)生B。

學(xué)生A通過高強(qiáng)度的專項(xiàng)訓(xùn)練,收集所有競(jìng)賽歷史題目(預(yù)訓(xùn)練)、做海量練習(xí)題(后訓(xùn)練),雖然得到了高分,成為了優(yōu)秀的競(jìng)賽選手,但這種高強(qiáng)度的專項(xiàng)訓(xùn)練未必能夠泛化到其他任務(wù)上。

正是這種“泛化能力”的不足,導(dǎo)致大模型出現(xiàn)了Benchmark和實(shí)際任務(wù)表現(xiàn)的差異。

(4)重新回歸The Age of Research

Ilya將AI的歷史發(fā)展分為三個(gè)階段。

從2012年到2020年是age of research。AlexNet、ResNet、Transformer等重要的算法創(chuàng)新層出不窮,為GPT的出現(xiàn)奠定了理論基礎(chǔ)。

從2021年至今是age of scaling。隨著Scaling Law的確認(rèn),scaling成為所有AI大廠“最安全”的投入方向。

畢竟基礎(chǔ)研究的投入產(chǎn)出不確定性太高了,你可能花了幾個(gè)億做研究,最后只打了個(gè)水漂。

但是在Scaling的敘事邏輯下,你只要花足夠的錢堆算力,就大概率能得到一個(gè)更強(qiáng)大的模型,從而獲得更大的商業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。

這種Scaling為王的氣氛帶動(dòng)了NVDA的收入高增,也帶動(dòng)了全球AI Capex的狂潮,但這也導(dǎo)致了一個(gè)明顯的問題:隨著Scaling效果邊際遞減,AI競(jìng)爭(zhēng)逐漸趨于同質(zhì)化。

在當(dāng)下這個(gè)關(guān)鍵時(shí)點(diǎn),Ilya認(rèn)為26年開始,整個(gè)AI產(chǎn)業(yè)將重新回歸age of research。

對(duì)于這個(gè)觀點(diǎn),我還是比較認(rèn)同的。

雖然現(xiàn)如今的大模型(如gemini 3)已經(jīng)很強(qiáng)大了,也具備很高的經(jīng)濟(jì)價(jià)值,但要想實(shí)現(xiàn)AGI,當(dāng)前算法路徑存在明顯瓶頸也是不爭(zhēng)的事實(shí)。

上次和我們CTO李漁博士討論下一個(gè)AI重點(diǎn)突破可能在哪里,我們觀點(diǎn)比較一致,那就是“可持續(xù)學(xué)習(xí)”。

如果把人類比作大模型的話,我們的大腦其實(shí)是一臺(tái)“訓(xùn)推一體機(jī)”。

白天我們從花花世界中接觸海量數(shù)據(jù),晚上入眠后,我們的海馬體將這些數(shù)據(jù)通過某種方式訓(xùn)練到“大模型”中。

第二天眼睛睜開時(shí),我們的大腦模型更新完畢,可以用一個(gè)全新的大模型迎接新的一天。

Brand new day, brand new me.

這種生物內(nèi)置的“可持續(xù)學(xué)習(xí)”的框架,對(duì)于目前的LLM而言,仍是一種奢望。

最近我們關(guān)注到一份Google的研究論文,就在試圖解決LLM的可持續(xù)學(xué)習(xí)難題。

(5)Nested Learning:Google向可持續(xù)學(xué)習(xí)發(fā)起的挑戰(zhàn)

Google在11月7日發(fā)表了一篇題為“Nested Learning”的研究成果,向大模型的“可持續(xù)學(xué)習(xí)”難題發(fā)起了挑戰(zhàn)。

可持續(xù)學(xué)習(xí)可以定義為:模型在不遺忘舊知識(shí)的前提下,隨著時(shí)間推移主動(dòng)獲取新知識(shí)和技能的能力。

在這一方面,人類大腦是公認(rèn)的“金標(biāo)準(zhǔn)”。

大腦實(shí)現(xiàn)可持續(xù)學(xué)習(xí)的秘訣在于“神經(jīng)可塑性”(neuroplasticity)

這是一種神秘而強(qiáng)大的能力,使得人類能夠根據(jù)新的經(jīng)歷和體驗(yàn)動(dòng)態(tài)改變大腦結(jié)構(gòu)。

人類有一種疾病叫做“順行性遺忘”(anterograde amnesia),它的癥狀體現(xiàn)為患者無法將短期記憶轉(zhuǎn)化成長(zhǎng)期記憶。

患有順行性遺忘的人類,他的思考推理將永久被局限在當(dāng)下的語境中。

這點(diǎn)和當(dāng)前LLM的處境非常類似,它的知識(shí)僅限于context window,以及預(yù)訓(xùn)練期間學(xué)到的靜態(tài)信息。

為了讓大模型學(xué)習(xí)新的知識(shí),我們需要不斷更新模型參數(shù),但這經(jīng)常會(huì)導(dǎo)致災(zāi)難性遺忘(Catastrophic Forgetting),即學(xué)了新的忘了舊的。

從仿生學(xué)的角度來看,如何讓大模型擁有類似人類大腦“神經(jīng)可塑性”是一條值得深入的研究方向。

Google這次提出的解決方案Nested Learning本質(zhì)上是一種“嵌套學(xué)習(xí)”框架。

嵌套學(xué)習(xí)不再將單個(gè)ML模型視作一個(gè)連續(xù)的過程,而是將其看做一個(gè)由互相連接、多層級(jí)學(xué)習(xí)問題組成的統(tǒng)一系統(tǒng),從而進(jìn)行同步優(yōu)化。

為了進(jìn)行概念驗(yàn)證,研究團(tuán)隊(duì)設(shè)計(jì)了名為Hope的模型,它是基于Titans架構(gòu)的一個(gè)變體。

具體來說,Titans架構(gòu)是一種長(zhǎng)期記憶模塊,其核心機(jī)制是根據(jù)記憶的“驚奇度”(即意外程度)來對(duì)記憶進(jìn)行優(yōu)先級(jí)排序。

盡管其記憶管理能力很強(qiáng),但它只有兩級(jí)參數(shù)更新,這導(dǎo)致它只能實(shí)現(xiàn)一階(first-order)上下文學(xué)習(xí)。

相比之下,Hope是一種自修正(self-modifying)的循環(huán)架構(gòu),與 Titans不同,它能夠利用無限層級(jí)(unbounded levels)的上下文學(xué)習(xí),此外Hope 還加入了 CMS(連續(xù)記憶系統(tǒng))模塊,使其能夠擴(kuò)展并處理更大的上下文窗口。

實(shí)驗(yàn)數(shù)據(jù)初步證實(shí)了嵌套學(xué)習(xí)的可行性,它把模型的“網(wǎng)絡(luò)架構(gòu)”和“訓(xùn)練規(guī)則”統(tǒng)一成了一個(gè)概念,把它們視作不同層級(jí)的優(yōu)化任務(wù),從而讓大模型有機(jī)會(huì)解決災(zāi)難性遺忘問題,實(shí)現(xiàn)可持續(xù)學(xué)習(xí)。

(6)結(jié)語:探索AI投研的有效前沿

Gemini 3、Nested Learning、可持續(xù)學(xué)習(xí),以及之前我專門討論過的Rubin CPX是近期特別值得關(guān)注的AI產(chǎn)業(yè)趨勢(shì)。

我不是從投資的角度來探討“AI bubble”,而是從AI應(yīng)用從業(yè)者的角度,提前規(guī)劃明后年的產(chǎn)品形態(tài)。

我們的AI投研產(chǎn)品AlphaEngine目前服務(wù)于超過70000名專業(yè)的機(jī)構(gòu)投資者。

AlphaEngine的使命很簡(jiǎn)單,那就是讓所有用戶第一時(shí)間體驗(yàn)到全球最強(qiáng)的AI投研效果。

本文系作者 AlphaEngineer 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

12:18

巴西聯(lián)邦最高法院批準(zhǔn)前總統(tǒng)博索納羅居家監(jiān)禁

12:10

安踏:2025年?duì)I收802.2億元人民幣,同比增長(zhǎng)13.3%

12:02

港股午評(píng):恒生指數(shù)漲0.04%,恒生科技指數(shù)跌0.48%

11:56

金飾克價(jià)重回1400元,一夜大漲近70元

11:42

港元1周期銀行同業(yè)拆息創(chuàng)下去年12月以來最大上漲

11:41

2025年北京人均GDP為3.3萬美元

11:40

官方回應(yīng)張雪峰醫(yī)療文件疑遭泄露:已關(guān)注到此事并在處理

11:37

伊朗喊話美國(guó):別把失敗說成協(xié)議

11:37

A股午評(píng):滬指半日漲0.88%重回3900點(diǎn)上方,算力租賃、CPO、貴金屬等多個(gè)板塊上揚(yáng)

11:35

河南擬發(fā)行547.43億元地方債

11:33

國(guó)債期貨早盤收盤普漲

11:28

港股震蕩回落,恒生科技指數(shù)轉(zhuǎn)跌

11:27

交行回應(yīng)擬申請(qǐng)撤銷私行專營(yíng)牌照:現(xiàn)有私人銀行業(yè)務(wù)服務(wù)、權(quán)益、流程等均不受影響

11:20

英偉達(dá)CEO黃仁勛:AGI時(shí)代已經(jīng)到來 “龍蝦開公司”不是夢(mèng)

11:12

伊朗被曝拒絕與威特科夫和庫(kù)什納談判

11:07

2025年度“中國(guó)科學(xué)十大進(jìn)展”發(fā)布

10:58

綠電概念漲勢(shì)擴(kuò)大,華電能源等十余股漲停

10:50

阿里云宣布全面開放JVS Claw

10:40

旅游概念異動(dòng)拉升,桂林旅游漲停

10:35

阿斯麥裁員計(jì)劃引發(fā)抗議,超1000名員工參與罷工

掃描下載App