北京智源人工智能研究院創(chuàng)始理事長,美國國家工程院外籍院士 張宏江
12月6日-7日,2024 T-EDGE創(chuàng)新大會暨鈦媒體財經(jīng)年會在北京市大興區(qū)舉辦,以“ALL-in on Globalization ,ALL-in on AI”為主題,匯聚全球科技和商業(yè)領(lǐng)導(dǎo)者,共同探討人工智能對全球各行業(yè)的巨大影響,以及企業(yè)全球化增長新格局新趨勢。作為鈦媒體集團每年年終舉辦的科技和財經(jīng)領(lǐng)域的頂級盛會,T-EDGE一直代表了鈦媒體在科技與經(jīng)濟前瞻性,以及推動國際創(chuàng)新交流上的高質(zhì)量追求。
12月7日,T-EDGE 全球AI論壇:All-in On AI會議上,北京智源人工智能研究院創(chuàng)始理事長,美國國家工程院外籍院士 張宏江,以“ChatGPT發(fā)布24個月后的6點觀察”為主題,圍繞 AI 大模型發(fā)展與應(yīng)用展開深度演講。
張宏江表示,隨著ChatGPT風(fēng)靡全球,世界迎來新的 AI 革命,模型參數(shù)規(guī)模形成指數(shù)級“Scaling Law”發(fā)展。
在ChatGPT發(fā)布24個月后的今天,張宏江認(rèn)為大模型領(lǐng)域有六個比較重要的技術(shù)趨勢:Scaling Law沒有全面放緩,AI將創(chuàng)造新的操作系統(tǒng)、新平臺、新生態(tài),大模型推動存量和新增應(yīng)用,多模態(tài)大模型是AGI的終極模型,多模態(tài)大模型賦能機器人,以及大模型的未來將迎來“自主智能”的世界。
張宏江指出,對于最近“Scaling Law放緩”、大模型面臨挑戰(zhàn)等傳聞和說法,他認(rèn)為并不用擔(dān)心Scaling Law放緩。“即使在Pre-Training(預(yù)訓(xùn)練)有放緩趨勢,但o1的發(fā)布,讓我們看到另外一個天地,就是相對于預(yù)訓(xùn)練模型的‘快思考’模式,推理模型o1可以給更多的思考時間,Scaling Law的推理性能已出現(xiàn)‘拐點’,有一個指數(shù)級增長。”
實際上,在去年2023T-EDGE大會上 ,張宏江曾判斷,GenAI將重寫軟件業(yè),過去一年的發(fā)展充分驗證了張宏江的預(yù)測,美國To B企業(yè)軟件行業(yè)正飛速被AI迭代,并且這些軟件服務(wù)企業(yè)正式進(jìn)入了盈利時代。(詳見鈦媒體App前文:《張宏江:所有產(chǎn)業(yè)都將被AIGC重寫,完全自動駕駛將有望實現(xiàn) |鈦媒體T-EDGE 2023》)
“過去一年,美國有很多ToB應(yīng)用爆發(fā),但很遺憾,中國與美國在這點上有很大的差距,中國To B市場非常小,或者To B軟件公司收入規(guī)模遠(yuǎn)不如美國,所以 AI 大模型重寫軟件服務(wù)依然需要時間進(jìn)行落地。”張宏江稱。
實際上,AI 大模型作為基礎(chǔ)平臺,將會系統(tǒng)性推動所有產(chǎn)業(yè)進(jìn)入新范式,成為下一個時代的“超級入口”。張宏江曾談到,AI 將重寫所有軟件應(yīng)用和產(chǎn)業(yè),提升每個領(lǐng)域的生產(chǎn)力。未來1.5年-2年,人類或?qū)⒖梢钥吹酱笠?guī)模商業(yè)落地曙光。
張宏江在T-EDGE大會上曾指出,所有的軟件公司都必須擁抱大模型,包括軟件工具、應(yīng)用服務(wù)等類型企業(yè),都需要啟用大模型重寫軟件。
展望未來,在張宏江看來,多模態(tài)大模型將是 AGI 的終極模型形態(tài),形成從語音、圖片、視頻,到端到端統(tǒng)一的多模態(tài)大模型十分重要。同時,AI應(yīng)用層面將從AI Infra(基礎(chǔ)設(shè)施)、AI PC、AI手機,到 AI 軟件、自動駕駛、(人形智能)機器人、AI for Science(科學(xué)智能)等領(lǐng)域都將迎來新的機遇。
張宏江強調(diào),未來每個人都從 AI 助理走向Agent,最后每個人都擁有一個AutoPilot,大模型將迎來一個自主智能的世界。隨著大模型發(fā)展,統(tǒng)一的多模態(tài)大模型有望實現(xiàn)“突破”,這些新的技術(shù)變革,將讓 AGI 奇點即將到來。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)
各位鈦媒體的嘉賓,大家下午好!
今天,我想用下面的時間,跟大家分享一下我對于大模型的發(fā)展與應(yīng)用、過去ChatGPT發(fā)布的24個月的幾點觀察,我這邊總結(jié)出6點:
近日,OpenAI發(fā)布了o1模型,其在推理方面很大程度上超過了人的平均IQ(通常智商)。這也是我們第一次看到在推理上,過去這些模型,第一次超過了人類的IQ的平均值。
那么,先說我的第一個觀察,因為最近大家這個聊得比較多的,就是說Scaling Law是不是發(fā)展“到頭”了?
在此之前,我們先回答,為什么Scaling Law如此重要?
當(dāng)ChatGPT這個幾千億參數(shù)的模型發(fā)布之時,自然語言處理的性能形成了指數(shù)級提高,就是我們所說的Scaling Law,它是大模型的規(guī)模定律。Scaling Law認(rèn)為,模型的參數(shù)增大,到一定程度的時候,你才真正能看到模型的精度,有一個突飛猛進(jìn)的增長,也就是出現(xiàn)“涌現(xiàn)”。
![]()
如果我們從圖上來看的話,這事實上是我們看到一個明確的拐點,從一開始現(xiàn)象的非常緩慢的增加,它的精度,突然到了一個拐點,當(dāng)我們的規(guī)模到了一定程度以后,就出現(xiàn)一個拐點沖兒,它的性能有足夠性的往上講,那么在幾個方面都出現(xiàn)了這樣的拐點,那么這個拐點我們把它叫做“涌現(xiàn)”。所以,我們過去的十幾年來,看到模型越做越大,繼而看到了這個“規(guī)模效應(yīng)”。
最近這種說法受到了一些挑戰(zhàn)。
首先,我們看到,現(xiàn)在很多模型訓(xùn)練到一定規(guī)模以后,好像沒有辦法的往前走,主要有幾個方面:一方面是說,數(shù)據(jù)是不是不夠;另一方面是說,算力是不是還夠。
其次,更重要的是,我好像很長時間沒有看到大模型性能大的改善。比如,人們一直沒有看到GPT-5的發(fā)布,大家是不是認(rèn)為,這個模型到了某個規(guī)模的話,數(shù)據(jù)可能不夠了訓(xùn)練不出來了。這些問題肯定是值得大家思考的。
然而,我想要說的是,其實我們不用擔(dān)心Scaling Law放緩,因為其即使在Pre-Training(預(yù)訓(xùn)練)有放緩趨勢,但o1的發(fā)布,讓我們看到另外一個天地,就是相對于預(yù)訓(xùn)練“快思考模式”,推理模型o1可以給更多的思考時間,所以,我們看到Scaling Law的推理性能出現(xiàn)“拐點”,有一個指數(shù)級增長。
01模型的新方法:引入“思考時間”(thinking time)的概念,允許模型在給定的計算預(yù)算內(nèi)進(jìn)行更多的計算迭代。推理計算可能隨“思考時間”呈指數(shù)級增長,而不是線性增長。
最后,在推理模型領(lǐng)域,Scaling Law效應(yīng)一直在持續(xù)而非放緩,這是我對此非常有信心的思考。
如果大家去年聽過我的演講的話,一定會對這張PPT不會陌生。
![]()
首先,大模型實際上是一個新的操作系統(tǒng),從而會建立一個新的平臺,那么,我們同樣也需要建立一個新的生態(tài)。
我們看一下所謂的 AI 操作系統(tǒng)是什么,無非就是能夠獲取人的命令,能夠執(zhí)行人的命令,能夠調(diào)用數(shù)據(jù)來進(jìn)行計算。今天,大模型通過自然語言的交互,通過多模態(tài)的交互,就能夠理解人們的需求,能夠開始執(zhí)行計算,所以我們說,大模型是新一代的操作系統(tǒng)。
其次,AI大模型擁有如此強大的技術(shù)能力,它將會重寫所有的軟件。
最后,既然是一個新的操作系統(tǒng)、一個新的平臺,那一定會產(chǎn)生一個新的生態(tài)。如果我們看一下,如果把模型作為最核心的一塊底層的話,實際上我們可以看到,云架構(gòu)、數(shù)據(jù)中心底層是芯片。
這就是為什么我們看到,英偉達(dá)過去兩年快速成長,云廠商和數(shù)據(jù)中心廠商過去兩年也快速成長,這都是由于大模型訓(xùn)練、推理所拉動的。那同樣,為了訓(xùn)練模型,我們在數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)交互建立一個新生態(tài),AI infra也需要快速發(fā)展,才能讓大模型應(yīng)用落地。所以,這是一個非常豐富的生態(tài),比傳統(tǒng)的軟件生態(tài)要豐富的多,它能帶來的創(chuàng)新、影響、技術(shù)變革時間,也會相當(dāng)長。
作為生態(tài)的推動者,大模型不止要推動硬件、芯片廠商,而且還要推動數(shù)據(jù)中心相關(guān)的硬件廠商更進(jìn)一步,帶動能源的需求,帶動能源的發(fā)展。所以,我相信,AI 大模型生態(tài)鏈會比之前PC、手機的生態(tài)鏈要更加強大。
另外一點,基礎(chǔ)模型訓(xùn)練成本如此之高,而端側(cè)、推理模型需求才剛剛開始,AI PC、AI Phone手機會慢慢發(fā)展。
未來,我相信大模型在數(shù)據(jù)中心、推理混合模式等方面,以及端側(cè)和云端的結(jié)合,會帶動產(chǎn)業(yè)鏈快速發(fā)展。
第三個觀察,我要分享,大模型將同時推動存量和新增應(yīng)用。
過去兩年,我們好像沒有看到很多 AI “殺手級”應(yīng)用出來,所以大家擔(dān)心這個“浪潮”是不是將會失去。但其實,在技術(shù)快速發(fā)展的時候一定有很多機會,而在技術(shù)平緩、成熟的時候,也同樣存在一定的機會,AI 應(yīng)用的需求和數(shù)據(jù)中心的昂貴成本將推動邊緣AI快速發(fā)展。
我認(rèn)為大模型應(yīng)用可能分為四個階段:
1)第一波增長的 AI Infra(基礎(chǔ)設(shè)施)、芯片和數(shù)據(jù)中心、能源等;
2)第二部分是PC、智能手機等硬件應(yīng)用。
3)大規(guī)模 AI 應(yīng)用。其實在美國,硬件端側(cè)設(shè)備還沒有起來之前,過去一年有很多 To B 應(yīng)用爆發(fā)性成長,但很遺憾,中國與美國有很大的差距,中國To B軟件市場非常小,或者說To B軟件公司規(guī)模遠(yuǎn)不不如美國,所以 AI 重寫大模型依然需要時間落地。
4)大模型在物理層面的爆發(fā),比如自動駕駛、(人形智能)機器人、AI for Science(科學(xué)智能)都會越來越廣泛、成熟發(fā)展。
所以,我們有理由相信,無論是自動編程,還是智能交互、客服、內(nèi)容生成,大模型所推動的 AI 應(yīng)用發(fā)展速度一定會超過早期的互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時期。
我的第四點觀察是,多模態(tài)生成大模型是AGI(通用人工智能)的終極模型。
實際上,我們?nèi)伺c人交流是通過語言模型,但人與世界之間的互動,還需要視覺、語音等其他不同模型的形態(tài)。因此,統(tǒng)一的多模態(tài)大模型才能夠解決所有理解的問題。
那么,我們過去一年就會看到多模態(tài)生成模型的快速發(fā)展,文生圖、文生視頻、圖生視頻等等,最有代表性的是OpenAI Sora,具有產(chǎn)生非常漂亮、內(nèi)容逼真視頻的能力,以及理解、描述和,模擬現(xiàn)實世界能力,展現(xiàn)出世界模型的雛形。世界模型是一個重要方向,是我們達(dá)到通用人工智能的重要一環(huán)。
近期,李飛飛創(chuàng)立的公司W(wǎng)orld Labs日前分享了一項成果,也非常震撼:只需單張圖像即可生成三維世界,團隊研發(fā)的 AI 系統(tǒng)可以允許用戶進(jìn)入任何圖像,并以三維方式進(jìn)行探索其中的世界。這是非常非常重要的進(jìn)步。
通向通用人工智能(AGI),我們希望把所有理解現(xiàn)實世界的能力、交互能力、和生成能力,建立在一個模型里面,這樣才能真正接近我們?nèi)祟愃伎嫉姆绞健R_(dá)到這個目標(biāo),形成端到端統(tǒng)一的多模態(tài)大模型十分重要。
![]()
比如,GPT-4o的發(fā)布,給人們呈現(xiàn)了所謂的“Her”,即電影”Her“中的主人公——AI 私人助理,逐漸有情感,開始對人有依賴,能給有情感的與人交互,那么,GPT-4o的演示恰恰表現(xiàn)出這種能力雛形,做到了生成、推理、語音、視覺等技術(shù)統(tǒng)一到一個模型當(dāng)中的“第一步”。智源研究院最近發(fā)布的EMU3大模型把統(tǒng)一的多模態(tài)大模型發(fā)展向前推進(jìn)了非常重要的一步。
為什么我們認(rèn)為,多模態(tài)的發(fā)展如此重要?其實有一個點在于,有了多模態(tài)大模型的突破,我們才能夠真正的賦能于機器人,才能真正開發(fā)出通用、能自我規(guī)劃、自主的機器人。
實際上,傳統(tǒng)機器人的模型完全是由人來設(shè)計的,把復(fù)雜任務(wù)分解變成“簡單任務(wù)”,然后對于每個簡單任務(wù)進(jìn)行人工設(shè)計,由規(guī)則來驅(qū)動運動的規(guī)劃,這是非常原始的模型。那么,有了語言大模型和世界大模型之后,我們能夠把復(fù)雜的任務(wù)通過多模態(tài)大模型分成“簡單任務(wù)”,能夠聽懂人的這種命令,然后又能夠進(jìn)一步通過視覺模型分解成機器的動作,從而完成復(fù)雜-簡單-機器動作的過程。
未來,多模態(tài)大模型驅(qū)動的“具身智能”模型,能給讓復(fù)雜的任務(wù)一步到位,分解成機器的動作,這是我們的目標(biāo)。
正是因為多模態(tài)大模型的迅速發(fā)展,過去一年迎來了通用、人形機器人“熱潮”。但有一點我們要特別注意,中國在機器人的“本體”走在世界前列,但是需要有多模態(tài)大模型、具身智能的能力,只有具備這些能力后才能看到通用機器人的“起飛”(迅速發(fā)展)。
最后一點我的觀察就是,大模型的未來會帶來一個自主智能的世界。
我們過去幾十年看到 IT 產(chǎn)業(yè)不斷進(jìn)步,但PC、互聯(lián)網(wǎng)真正實現(xiàn)的是“信息系統(tǒng)”。而我們今天真正進(jìn)入的則是 AI 時代、模型時代。
那么未來,隨著AI大模型的發(fā)展驅(qū)動,一定會讓我們進(jìn)入“自主智能”的時代。無論是軟件,還是機器人本體,都能夠有自主決策和行為能力,從而真正進(jìn)入所謂自主智能的世界。
無論是現(xiàn)有應(yīng)用,還是新的應(yīng)用層面,我們都可以看到大模型智能體(AI Agent)的廣泛賦能,而Agent的這種方式廣泛應(yīng)用需要智力、AI 能力的迅速提升。那么,隨著 AI 這一輪浪潮不斷發(fā)展,未來所有應(yīng)用都會像Copilot一樣無處不在,而且會越來越智能,從而將Copilot變成“AutoPilot”。
未來,我們每個人都將有一個 Agent。從助理、代理,再到AutoPilot,意味著未來大模型會給整個產(chǎn)品設(shè)計、社會組織、就業(yè)變化、業(yè)務(wù)成長等方面帶來巨大機遇,會迎來一個“自主智能”的世界。
![]()
而這意味著,我們需要增加更多的GPU,訓(xùn)練更大模型、更強模型,以及更多的數(shù)據(jù),這些都會成為企業(yè)的核心資產(chǎn),大模型的未來對于我們生活和工作、企業(yè)組織、人員就業(yè)帶來非常深刻的變化。
講了六點觀察,最后是我的結(jié)束語:通用人工智能(AGI)奇點是不是已經(jīng)來臨?
如果你要問馬斯克(Elon Musk),他說已經(jīng)到了;如果問美國AI大模型獨角獸Anthropic CEO Dario Amodei,他說2026年;如果你要問谷歌DeepMind CEO Demis Hassabis,他說可能還有十年;如果問辛頓(Geoffrey Hinton),他說還有5-20年。
所以這意味著,技術(shù)發(fā)展比人們學(xué)習(xí) AI 的速度要快,人類進(jìn)化的速度是一條直線,但 AI 技術(shù)發(fā)展的速度是一條指數(shù)級增長曲線,始終沒有與人類學(xué)習(xí)能力的曲線相交叉。那么,一旦它們之間出現(xiàn)“交叉”,那就是奇點的來臨。
![]()
今天,我們有理由相信,隨著大模型學(xué)習(xí)能力越來越強,Scaling Law發(fā)展速度越來越快,AI 原生應(yīng)用迅速落地和成長,統(tǒng)一的多模態(tài)大模型實現(xiàn)“突破”,這些技術(shù)變革將讓奇點很快到來,也就是所謂“自主智能”的時代很快到來。
好,謝謝大家!
更多嘉賓精彩分享,點擊進(jìn)入2024T-EDGE創(chuàng)新大會官網(wǎng)查看。
![]()
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論