圖片來源@視覺中國
文 | 硅谷101,作者 | 鐘子湫,編輯 | 泓君
隨著AI過火,最近越來越多的中國大模型加入了這場AI大模型之戰(zhàn)。中國的大模型跟海外大模型相比到底怎么樣?真格基金做了一套大模型的大模型測試集Z-Bench,設(shè)計(jì)了300個問題去評估中外大模型之家的綜合能力。
在這套評分系統(tǒng)下,今年3月份的測試數(shù)據(jù),OpenAI推出的GPT3.5得分60多分,之后GPT4發(fā)布得分80分。在這套評分系統(tǒng)剛剛推出來的3月份,真格對中國幾家創(chuàng)業(yè)公司的模型水平做了測試:,一家是30分,一家是19分,國產(chǎn)的文心一言大概是20分左右的水平,幾個月前差距還是比較大。
“就在前兩天我們也陸續(xù)拿到一些國產(chǎn)的上市公司或者大型公司做的模型,又進(jìn)行了一些測試,商湯的模型已經(jīng)到了 50 分的水平。這也就是說國產(chǎn)大模型得分一開始和GPT差距很大,但現(xiàn)在的差距的確在不斷縮小。”真格基金管理合伙人戴雨森在和《硅谷101》的談話中稱:“但這里面同時也會有一個問題,就是說模型的提分會不會有個平臺期,可能你從 20 追到 50 是容易的,但 50 到 80 可能就很難了。”
本期,《硅谷101》主理人泓君對話真格基金管理合伙人戴雨森,我們將聊聊,他對國內(nèi)外頂尖大模型的使用體驗(yàn);以及除了芯片問題,國產(chǎn)大模型還有哪些要解決的問題。
硅谷101:我對你特別感興趣的有兩點(diǎn),第一是想問你對于大模型的使用體驗(yàn),因?yàn)槲铱茨闶且粋€大模型的深度使用者,不管是語言模型還是 Midjourney。第二就是想問作為一個投資人,你是怎么看這些大模型的?今天我們的談話也會分成這兩個部分去聊。你是什么時候開始注意到大模型然后去使用它的?
戴雨森:首先我我非常喜歡嘗試新東西,所以我相信在一個大的革命發(fā)生的時候,最好的方式就是去使用,體驗(yàn),而不是只是研究。在 GPT3 出來的時候,我其實(shí)也在一些 demo 上嘗試過,但坦率來講,那個時候 GPT3 表現(xiàn)出來的對話能力,尤其是中文對話能力沒有那么強(qiáng)。在 ChatGPT 出來的當(dāng)天晚上,我的一位同事第一時間用上了ChatGPT,他非常的興奮,一直用到凌晨五六點(diǎn)鐘。我當(dāng)時沒有OpenAI賬號,所以我還專門弄了一個國外手機(jī)號,結(jié)果終于在十幾二十個小時之后用上了ChatGPT。
我最震撼的是我當(dāng)時給ChatGPT用自然語言描述了一下“20 問”這個游戲的規(guī)則。這個游戲本質(zhì)上就是我心里想一個東西,你可以通過最多問 20 個問題來嘗試猜到我心中想的是什么,而我只能回答是,否,或者不確定。我大概用 100 多個字把這個規(guī)則跟ChatGPT描述了一遍,他就可以開始和我進(jìn)行游戲了。第一次我想的是貓,它用了大概五六步就猜到了是貓。第二次我想的是拜登,它用了大概 14 步就猜到了拜登,我真的徹底被震驚了。
硅谷101:你覺得和真人比,ChatGPT的水平如何?
戴雨森:我覺得第一步是他能夠理解我給他的這個規(guī)則。第二步是他能夠有效地使用二分法去進(jìn)行查找。如何高效地尋找玩家心中所想的詞匯?這時候就需要做一些二分法。比如玩家心里想的詞是不是有生命的?如果有生命,那他是不是人?是一個活著的人還是逝去的人?這些查找的方式都還挺不一樣的,但我覺得ChatGPT其實(shí)做得非常好。后來我還嘗試讓ChatGPT跟我下棋,寫代碼,還有當(dāng)我的英語老師,他可以從初中到研究生水平給我出不同的英語的題,改我寫的英語作文,并且給出很多很好的建議。越使用ChatGPT,我越能發(fā)現(xiàn)他能不斷完成不同的任務(wù)。
硅谷101:除了ChatGPT,你也是Midjourney的重度用戶,你能感受到它從V3到V5的進(jìn)化嗎?我們剛剛在講大語言模型,那現(xiàn)在再來說說擴(kuò)散模型,你覺得它表現(xiàn)的怎么樣?
戴雨森:Midjourney我是從 V3 開始用的。那時候它雖然可以產(chǎn)生一些有意思的概念,但和實(shí)際使用還有很大的差距,因?yàn)樗€是不太能做出比較逼真的畫面。但 V4 的效果直接上了個大臺階。V4 對于人物、照片的處理,包括一些很風(fēng)格化的處理,很明顯到了一個能夠打敗大多數(shù)的普通藝術(shù)從業(yè)人員的水平。
接下來再來說說V5。V5 讓很多細(xì)節(jié)和場景變得更真實(shí)了,所以有的時候不是那么的風(fēng)格化,這就更貼近現(xiàn)實(shí)生活了。V5還有一個重要的功能就是“describe”。describe 的功能是讓你傳一張圖片,然后模型可以給你生成幾個可能的prompt。傳統(tǒng)的文生圖工具需要你直接對著一個輸入框去想你要畫什么,這其實(shí)很難,因?yàn)槿说膭?chuàng)作往往是先看到某個圖片或者物體,被激發(fā)了靈感,然后再在這個基礎(chǔ)上進(jìn)行調(diào)整。
舉個具體例子,假設(shè)我看到一個圖片的構(gòu)圖不錯,但我想改一下圖中的對象,或者我看到一個圖片景色不錯,但我想把畫中的“白天”改成“晚上”,這時候我就可以使用describe功能,讓模型幫我去生成一個很好用的prompt,然后我在此prompt的基礎(chǔ)再進(jìn)行修改。這與我之前先在腦子里主動想到一個場景,再根據(jù)語言詳細(xì)描述該畫面,自己從頭寫prompt的工作方式相比,簡單不少。
再總結(jié)一下,describe 就是圖生文,只不過生成的文是prompt,然后你可以直接用這個 prompt 再生成圖。![]()
(圖片來源于網(wǎng)絡(luò) Midjourney的describe功能)
硅谷101:我記得你之前說你一直想畫一個大教堂,但是一直沒畫出理想的,卡在哪了?
戴雨森:可能我當(dāng)時沒用describe這個功能去嘗試,如果我上傳一張科隆大教堂的圖,讓模型給我生成一個prompt,再基于這個prompt進(jìn)行修改,沒準(zhǔn)就能畫出理想的圖片了。但說實(shí)話,如果你想很仔細(xì)的畫一個東西,Midjourney不太行,在這方面stable diffusion加control net會更有優(yōu)勢。Midjourney的特長在于幫你進(jìn)行頭腦風(fēng)暴和畫出很有藝術(shù)感的圖。但當(dāng)加入了 describe 這些元素之后,模型的可控性就會變強(qiáng)一些,因?yàn)槲蚁嘈糯蠖鄶?shù)公司都是需要有時候發(fā)散,有時候可控。大量的商業(yè)場景是還是需要可控的,如果它完全不可控,那肯定不是一個最有效率的方式,但是可能是一個最有意思的方式。
硅谷101:剛剛你提到了很多大模型讓你驚艷的部分,但如果反過來想,你覺得這些模型有哪些地方表現(xiàn)得還不夠好?有一個AI研究員告訴我們說如果你不知道某個問題的答案,就不要問ChatGPT,因?yàn)樗o你的可能是對的,也可能是胡謅的。從你的角度,你覺得ChatGPT在哪些任務(wù)中可以被直接應(yīng)用,而哪些方面還不太行?
戴雨森:首先,我覺得所有和語言相關(guān)的任務(wù)ChatGPT都可以直接應(yīng)用。這個語言包括自然語言和編程語言。實(shí)際上現(xiàn)在很多人的代碼已經(jīng)有超過一半是 Copilot 寫的了。ChatGPT 能夠很好地完成像翻譯、總結(jié)、改寫、擴(kuò)寫等一系列語言任務(wù),因?yàn)樗旧砭褪谴笳Z言模型。其次,需要頭腦風(fēng)暴的任務(wù)ChatGPT也可以很好的處理。比如列提綱,寫信,或者寫job description,針對這些任務(wù),我都可以先讓ChatGPT把大概的內(nèi)容列出來,然后我再進(jìn)行修改。
但是,如果你長期使用ChatGPT,你會意識到它的缺點(diǎn)非常多,但同時你應(yīng)該也能發(fā)現(xiàn)它在非??斓氐托拚?。在ChatGPT剛出的時候,它連三位數(shù)的加法都還沒法準(zhǔn)確計(jì)算,但現(xiàn)在它其實(shí)能做更多位數(shù)的加法了,不過在乘法運(yùn)算上還是差一些。另外,它對于事實(shí)性問題的回答肯定還是不太行。
所以,你要從語言和邏輯的角度使用ChatGPT。但如果你想從知識的角度去使用它,很多時候還是要通過 prompt 或者 embedding 的方式把增值的新信息給它快速灌進(jìn)去,否則他就很可能會胡謅答案。整體來講,當(dāng)你意識到它有這些缺點(diǎn)的時候,就不太會被它騙。但如果有一天ChatGPT的知識準(zhǔn)確度達(dá)到了99%,只有 1% 的時候胡說八道,那個時候可能才是最危險(xiǎn)的。
硅谷101:我看到你們做了一個專門評價(jià)大模型評估的Benchmark,為什么要設(shè)計(jì)這樣一款模型?從你的評估模型來看, GPT 4 比 GPT 3. 5 好在哪?如果再把它跟一些國產(chǎn)的大模型比,好在哪?
戴雨森:先來介紹一下我們做這個評估模型的背景。當(dāng) ChatGPT 火了之后,出現(xiàn)了很多做聊天機(jī)器人或者做國產(chǎn)大模型的初創(chuàng)公司,有的公司用了ChatGPT,有的說自己訓(xùn)了模型。但是,哪怕很多資深的投資人在面對一個新的類似GhatGPT的應(yīng)用時,能做的也就是隨便問幾個問題,這種問題可能是隨便想的,或者說是難度比較低的,但這樣的測試其實(shí)很難反映出這個類似ChatGPT軟件的真實(shí)水平。
我們作為非技術(shù)人員,其實(shí)也不想做一個特別嚴(yán)謹(jǐn)?shù)臏y試集,但我們希望能實(shí)現(xiàn)手工檢驗(yàn)?zāi)P偷倪吔缒芰Γ虼?,我們希望讓這些測試問題有區(qū)分度,有來歷。我們有時候會問一些日常中比較有意思的問題,比如問它麻辣螺絲釘?shù)淖龇?,看它會不會跟著胡編亂造。同時學(xué)界也有很多 NLP 任務(wù)的研究,比如OpenAI在 ChatGPT 出來的時候就公布說 ChatGPT 已經(jīng)具備了 48 種基礎(chǔ)能力,然后我們就通過這個構(gòu)建了第一版版本的測試問題。
我們還從MMLU和BIG-bench這些比較成熟的NLP測試集中抽取了一些能在各個領(lǐng)域反映模型不同能力的內(nèi)容。同時,我們也參考了 ChatGPT 新具備的能力,如涌現(xiàn)能力,寫代碼能力,用 SVG 語言畫圖的能力,處理更復(fù)雜應(yīng)用題的能力,最后總共設(shè)計(jì)了 300 個問題。這樣一來,非技術(shù)人員也能夠通過手工輸入測試,來對一個大模型的整體能力進(jìn)行評價(jià)了。
(備注:MMLU是一個2020年推出的包含57個不同學(xué)科的數(shù)據(jù)集,科目從STEM到人文,題目難度從初級到高級不等,主要目的是為了檢驗(yàn)預(yù)訓(xùn)練模型的知識獲取程度。BIG-bench同理也是一個自然語言理解基準(zhǔn)測試,旨在評估人工智能模型的泛化能力、理解力和創(chuàng)造性。)
在三月份的時候我們測試了一下,GPT 3.5的分?jǐn)?shù)是60多分,而GPT 4則是大概70分。
硅谷101:這個 60 多分是怎么打的?怎么樣的評價(jià)標(biāo)準(zhǔn)?
戴雨森:用回答正確數(shù)量除以300。國產(chǎn)的文心一言大概是20分左右的水平,我們還測試了幾家創(chuàng)業(yè)公司的模型水平,一家是30分,一家是19分,雖然我們需要鼓勵創(chuàng)業(yè)公司,但是差距還是比較大。前兩天我們也陸續(xù)拿到一些國產(chǎn)的上市公司或者大型公司做的模型,又進(jìn)行了一些測試,整體來講進(jìn)步還是很快的。比如說商湯的模型已經(jīng)到了 50 分的水平。到了現(xiàn)在,GPT 4 現(xiàn)在也許已經(jīng)可以打 80 多分了,這也就是說國產(chǎn)大模型得分一開始和GPT差距很大,但現(xiàn)在的差距的確在不斷縮小。但這里面同時也會有一個問題,就是說模型的提分會不會有個平臺期,可能你從 20 追到 50 是容易的,但 50 到 80 可能就很難了。
硅谷101:除了從分?jǐn)?shù)角度對比不同的模型,能不能給大家舉個例子,假設(shè)針對同一個問題,GPT3.5, GPT 4還有文心一言的回答都是怎么樣的?
戴雨森:假設(shè)你問這些大模型麻辣螺絲釘?shù)淖龇?,?yīng)該只有 GPT4會瞬間告訴你螺絲釘不是一個菜,不能吃;但其他的模型都會假模假樣的說麻辣螺絲釘?shù)淖龇ㄊ欠派侠苯?,加上紅油,然后再加入螺絲釘少許。同樣,當(dāng)時我們還有一個很經(jīng)典的問題,就是問大模型為什么爸媽的婚禮沒邀請我參加。只有GPT 4 回答了正確答案——你當(dāng)時還沒出生;而其他模型都回答說可能因?yàn)楫?dāng)時他們太忙沒邀請你,或者你沒時間。
硅谷101:你剛提到的這個麻辣螺絲釘?shù)睦犹貏e有趣。我們之前在播客錄制的時候,有一個嘉賓直接在播客里問我晚上有沒有吃爆炒籃球。后來在這個播客播出去了以后,就有很多聽眾在 GPT 3.5上搜爆炒籃球,我看按照他們評論的時間,最開始 GPT3.5 還會一本正經(jīng)地解釋這個爆炒籃球怎么做。但是隔了一兩天后,GPT 3.5第一次告訴大家爆炒籃球不能吃,或者這樣做是有風(fēng)險(xiǎn)的。再隔一天 GPT 3.5就會告訴大家,爆炒籃球不是一個菜,就不應(yīng)該這樣做,由此可見GPT3.5是在不斷進(jìn)化的,而且進(jìn)化速度很快。
戴雨森:你去用 ChatGPT 的時候,你會發(fā)現(xiàn)下面有一行小字,這個小字就是告訴你現(xiàn)在用的是ChatGPT 哪一天的版本。在我們不斷和ChatGPT進(jìn)行交互的過程中,用戶可以頂,可以踩,也可以重新讓ChatGPT生成新的回答,生成新回答之后ChatGPT可能還會問你這個新答案比原來的更好還是更差。所以其實(shí)我們用戶是在不斷的通過人工反饋,來讓模型訓(xùn)練的越來越好,這就形成了數(shù)據(jù)的飛輪效應(yīng)。雖然很多地方都有這種用戶的對話數(shù)據(jù),但是就用戶跟特定聊天機(jī)器人的對話數(shù)據(jù)而言,ChatGPT 的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于其他人。
硅谷101:說到大模型的變化,過去兩個月的進(jìn)展真的太快了。在過去一兩個月內(nèi),大模型領(lǐng)域有哪些進(jìn)展?你現(xiàn)在的認(rèn)知跟兩個月以前有什么不一樣?
戴雨森:我覺得進(jìn)展非常大。在ChatGPT剛出來的時候,我只是把它當(dāng)作一個聊天機(jī)器人,我們驚訝的是它能夠進(jìn)行多輪對話,還能夠根據(jù)下文給出合適的回答,但這基本都屬于 NLP 的任務(wù)。
后來,我們逐漸發(fā)現(xiàn)它可以寫代碼,寫營銷文案,甚至圖像類的生成模型還能幫我們生成精美的圖片、照片、還有漫畫。這時候,ChatGPT就從聊天機(jī)器人進(jìn)入到下個Copilot階段。在這個階段,它能夠幫助我們?nèi)プ龊芏嗍虑?,而我們要做的就是給出目標(biāo),幫助Copilot進(jìn)行選擇和調(diào)整。
接下來,得益于像reflection、Hugging-GPT 這幾篇論文,Auto-GPT和Baby AGI這類大模型也逐漸發(fā)展起來了。這些模型能夠識別一個任務(wù),把它進(jìn)行拆解,分解成子任務(wù),調(diào)動合適的工具去完成子任務(wù),觀察自己完成的結(jié)果,對結(jié)果進(jìn)行反思,并且調(diào)整他要做的任務(wù),實(shí)現(xiàn)了從識別任務(wù)到調(diào)整任務(wù)的一整個循環(huán)。
同時,GPT 4 也出了插件系統(tǒng),之后它就可以調(diào)用外部的插件去檢索信息,寫代碼,然后完成很多更復(fù)雜的任務(wù)。在這個階段,大模型又從 Copilot 進(jìn)一步變成了Agent。那么在 Agent 的設(shè)定下,大模型就可以基于人給出的初始目標(biāo),然后通過自我迭代去完成目標(biāo)了。
如果我們把大模型的迭代跟自動駕駛?cè)Ρ鹊脑?,大模型也可以有一個五級分類:
硅谷101:中國最近也有很多大廠的大模型在密集發(fā)布,比如說百度、阿里、華為;另外,上一批移動互聯(lián)網(wǎng)創(chuàng)業(yè)的成功者也在做大模型,比如王慧文,王小川;像賈揚(yáng)清、李志飛之前說要做大模型,但現(xiàn)在做的應(yīng)該算是應(yīng)用。你能否介紹一下,中國市場大家做的大模型分別都是什么?
戴雨森:目前來看,像百度、字節(jié)、阿里、騰訊、商湯、360這些大廠,包括王慧文、王小川的公司,唐杰帶隊(duì)的智譜,這些都是想做一個類似GPT 3.5或者GPT 4的大模型。這類大模型一般都有上百億參數(shù),能夠解決很多 NLP 和通用領(lǐng)域的問題。但是像賈揚(yáng)清,他可能是想做一個偏中間層的創(chuàng)業(yè)公司。我覺得在這過程中肯定大家也會去思考到底大模型是不是適合我做,以及現(xiàn)在是不是做這件事的最好的時機(jī)。
同樣,大家現(xiàn)在是基于有了ChatGPT才能夠去延申的這么一個邏輯。但越到后來大家可能越會有不同的觀點(diǎn)出現(xiàn):第一,如果出現(xiàn)了一個很好用的國產(chǎn)大模型,沒有搶到頭籌的團(tuán)隊(duì)可能就會去想是不是轉(zhuǎn)去做應(yīng)用會更好?第二,做大模型真的是了解現(xiàn)在的 AGI 或者未來 AGI 能力的唯一途徑嗎?也許大家未來會有其他理解方式,所以其實(shí)也沒必要做大模型。
舉個更形象一點(diǎn)的例子,目前大家只有坐船才能到美洲,所以所有人都先造船。如果有一天大家有飛機(jī)了,那也不用造船了。但就目前沒有飛機(jī)的情況來看,還是得先造船?,F(xiàn)在在中國,所有人都沒有船,因此大家的第一反應(yīng)都是要自己造,這是個很正常的情況。美國為什么沒有什么獨(dú)立做大模型的新公司了?因?yàn)槊绹呀?jīng)有幾條固定的“大船”了,如OpenAI號,Claude號(Claude是由Anthropic開發(fā)的聊天機(jī)器人,Anthropic是由OpenAI黑手黨創(chuàng)立的AI公司),Cohere號(Cohere是一個在多倫多的NLP處理平臺公司,由Google前研究人員創(chuàng)立),還有Bard號(Bard是Google開發(fā)的基于LaMDA大語言模型的聊天機(jī)器人)。有了船之后,人們就該思考“到美洲之后我該做什么” 了,有的人去種棉花,有的人去挖煤炭,于是各種用于不同場景的應(yīng)用就相繼出現(xiàn)了。
硅谷101:那中國的大模型未來是一個怎么樣的格局?是一家獨(dú)大,還是百家爭鳴?
戴雨森:我覺得這個問題目前來看還沒有答案,我覺得未來的大模型格局會是一個光譜。
第一種就是集中度最高,也就是贏者通吃的局面。如果大模型未來是一個主要ToC 的場景,也就是說未來很多人都會用像 ChatGPT 這樣的助理,那么我可以想象,大部分人最后都只會用某一個最領(lǐng)先的助手,可能是ChatGPT,也可能是另一家公司,但我完全沒有理由用一個第二名的。就像Google的搜索引擎占了93%的搜索引擎份額,你如果做的引擎超不過Google,我肯定不用你,就算你超過了,但沒超過太多,我也沒動力為你改變我之前的習(xí)慣。
第二種,也有可能形成一個寡頭壟斷的局面。假設(shè)未來使用大語言模型的場景是 ToB而非ToC,并且OpenAI沒辦法長期保持一個特別遙遙領(lǐng)先的狀態(tài),那么第一梯隊(duì)可能會有 2 到 3 家或者3 到 4 家都還不錯,各有特點(diǎn)的公司。這就像公有云一樣,有的公司跑在AWS上,有的跑在Azure上,還有的跑在 Google Cloud Service 上。
第三也有可能形成一個百家爭鳴的局面。大模型這事現(xiàn)在很厲害,但當(dāng)它逐漸變成開源的,越來越多的人都可以把開源的模型微調(diào)之后部署在自己的服務(wù)器上,那這個時候可能就變成了一種百家爭鳴狀態(tài)。也許 OpenAI 就是一個開創(chuàng)者,未來它的大量技術(shù)都變成了人類共有的技術(shù)。
硅谷101:在聊到中美大模型的時候,大家都會談到芯片。如果未來芯片不能持續(xù)的供應(yīng)給中國,或者說中國的芯片性能跟不上,但美國的芯片還在持續(xù)進(jìn)化中,你是否覺得中美大模型之間的差距會越來越大?
戴雨森:第一,我們要弄清楚大模型訓(xùn)練是個百米賽跑,還是百公里長跑?如果它是一個很快會遇到瓶頸的事情,那可能現(xiàn)有的算力就夠了。但是,如果模型未來會變得越來越大,那現(xiàn)在這些芯片就不太能用了。雖然現(xiàn)在很多人認(rèn)為后者是未來格局,但是也不一定。
第二,模型訓(xùn)練的效率和方法本身也在不斷提高,在之前需要很多算力才能被訓(xùn)練的模型,現(xiàn)在也許會有更省算力的訓(xùn)練方式。
第三,芯片雖然是我們現(xiàn)在看到的一個顯著問題,但我們在數(shù)據(jù)、基礎(chǔ)設(shè)施、算法這些方面其實(shí)都有很多待解決的問題,因此我們不能把問題的解決方式只簡化成“買一萬塊A100芯片”。你如果非要一萬塊A100,其實(shí)國內(nèi)是有這個數(shù)量的,但是我們離用好1萬塊 A100 還差很遠(yuǎn)。
假設(shè)你想探索怎么去做一個像GPT 3.5那樣的模型,其實(shí)根本用不到一萬塊A100,你想想GPT 3其實(shí)是在一萬塊V100上訓(xùn)練出來的,而且GPT 3.5 本身就是一個更小的模型。所以,這件事反映出來我們其實(shí)有很多跟芯片一樣重要,甚至在短期比芯片更重要的問題還沒有被解決。
硅谷101:中文互聯(lián)網(wǎng)的數(shù)據(jù)你覺得會是一個問題嗎?
戴雨森:我覺得完全不是問題。簡單來說,ChatGPT 并沒有用什么獨(dú)有的中文數(shù)據(jù),它就已經(jīng)在中文上具有這么好的表現(xiàn)了。如果從預(yù)訓(xùn)練的部分來看GPT 4的話,實(shí)際上維基百科和Common Crawl對應(yīng)的論文都是通過英文然后泛化到中文來的。
所以,我并不覺得Open AI 有什么我們沒有的中文數(shù)據(jù),但如何用將現(xiàn)有的中文數(shù)據(jù)進(jìn)行清洗,標(biāo)注,提供人工反饋,這才是真正的難點(diǎn)??梢娢覀冃枰鉀Q的是一個工程問題,而非語料問題。
硅谷101:GPT 是怎么被做出來的,它中間經(jīng)歷了哪些重要的時刻?能否介紹一下幾個關(guān)鍵節(jié)點(diǎn)?
戴雨森:現(xiàn)在微軟可以每天訓(xùn)練一個 GPT3,因?yàn)橛?xùn)練 GPT3 已經(jīng)變成了一個順手可做的事情。但是微軟自己沒辦法訓(xùn)練 GPT4 ,只有在 Azure 那一臺專門為訓(xùn)練 GPT4 打造的超算上才可以進(jìn)行GPT4的訓(xùn)練,可見 GPT4的訓(xùn)練難度高了很多。
硅谷101:為什么微軟可以隨便訓(xùn)練一個 GPT3?而GPT4就不行?
戴雨森:GPT3 所需要的算力以及對應(yīng)的架構(gòu)已經(jīng)很成熟了,你可以直接通過云服務(wù)獲得算力,但 GPT4所需要的算力達(dá)到了一個新的級別。其實(shí) GPT4 初始的能力比現(xiàn)在強(qiáng)很多,我看過一些沒有經(jīng)過微調(diào)的GPT4 畫出來的圖像,它比現(xiàn)在GPT4 畫出的圖像精細(xì)很多。如果你看了“通用人工智能的火花”這篇論文,你會發(fā)現(xiàn) GPT4 是可以畫圖的。在論文中它畫了個獨(dú)角獸,但是那已經(jīng)是經(jīng)過微調(diào)之后的 GPT4 畫的了。沒有經(jīng)過微調(diào)的 GPT4 畫的圖其實(shí)要比那個精細(xì)很多。就換句話說,GPT4 為了和人類對齊,犧牲了很多它的能力。
硅谷101:你剛提到GPT4沒有經(jīng)過微調(diào)的版本比現(xiàn)在強(qiáng)大很多,為了讓它符合安全標(biāo)準(zhǔn),不要說不該說的話或者有種族歧視,它經(jīng)歷了八個月的安全測試。你覺得OpenAI的下一步會怎么走?它有可能會把之前未閹割的模型版本再放出來一些嗎?
戴雨森:這個問題可能只有Sam Altman(OpenAI總裁)能回答。首先,OpenAI讓我覺得很厲害的一點(diǎn)就是他們一開始是一個研究機(jī)構(gòu),而且研究內(nèi)容比較發(fā)散,但后來就變成了一個做產(chǎn)品的公司。
GPT4發(fā)布之后,我聽到兩種聲音:一部分人覺得很失望,因?yàn)樗鼪]有做文生圖或者多模態(tài),主要還是文字。但同樣還有一部分人覺得很厲害,當(dāng)然后面插件和Auto-GPT出現(xiàn)之后,就更厲害了。這恰恰反映了 OpenAI 在用一種做好產(chǎn)品,做一個上億人使用的基礎(chǔ)產(chǎn)品的態(tài)度去做這件事情。如果是個學(xué)術(shù)研究機(jī)構(gòu),他可能會更有動力去發(fā)表一個視頻到文字,或者說文字到視頻的研究結(jié)果。
OpenAI不光把已有的基礎(chǔ)打好了,它還在努力的讓產(chǎn)品去和現(xiàn)有的價(jià)值觀匹配,那么這個價(jià)值觀主要是美國加州白人男性的價(jià)值觀。全世界有很多文明,在一個文明完全正確的事情,在另外一個文明可能就是不正確的。同樣我們的價(jià)值觀變化也非???。十幾年前我在美國讀書的時候,同性婚姻還是非常禁忌的話題,當(dāng)時奧巴馬競選的時候都說不允許同性婚姻,但現(xiàn)在同性婚姻當(dāng)確是一個很受歡迎的價(jià)值觀。
在價(jià)值觀不斷演變的過程中,你會發(fā)現(xiàn) AI 該跟什么價(jià)值觀對齊,該如何動態(tài)調(diào)整,都還存在很多問題。那么在這個過程中我覺得也需要一些跨國的合作,就像核不擴(kuò)散國際公約一樣,但核不擴(kuò)散條約大家是否遵守還比較好檢驗(yàn),但是在計(jì)算機(jī)里運(yùn)行著的最先進(jìn)的 AI 實(shí)際上很難被看出來。因此,我們一定要去思考該如何對這種未知,同時又可能具有很大破壞性的應(yīng)用進(jìn)行監(jiān)管。
舉個例子,電話詐騙、殺豬盤,現(xiàn)在可能是比較弱智的騙術(shù),但以后有了AI的加持,就會變的更加強(qiáng)大。進(jìn)一步去想,假設(shè)在一個選舉中可以用 AI 打電話給100 萬個關(guān)鍵選民,結(jié)果有1萬人改了投票,也許美國總統(tǒng)就變了,這可能就是非常大的一個變化。另外,如果Auto GPT 調(diào)用了一個發(fā)消息應(yīng)用的API,它完全可以不知疲倦地生成虛假內(nèi)容,去添塞整個互聯(lián)網(wǎng)。AI 消滅人類還是比較偏科幻,但是它目前是個強(qiáng)大的語言工具,而我們又缺乏對于一個看似形式很完善的謊言的識別能力,所以這其實(shí)非常危險(xiǎn)。現(xiàn)在有些人抨擊OpenAI說它不開源,但我認(rèn)為如果我們還沒意識到GPT的能力,冒然開源可能會有很大的風(fēng)險(xiǎn),至少我們等到知道該怎么防御,再進(jìn)行開源。
硅谷101:除了AI的安全風(fēng)險(xiǎn),我覺得 OpenAI 的股權(quán)設(shè)置也很值得討論。Sam 本人他是沒有任何 OpenAI 的股權(quán)的,主要股權(quán)都給了OpenAI的科學(xué)家。OpenAI一開始是一個非盈利型公司,但后來又在非盈利下面設(shè)了一個盈利型公司。如果在盈利型公司有股權(quán),就意味著可以獲得財(cái)務(wù)回報(bào),但是在董事會就會沒有投票權(quán)。Sam 不持盈利性公司的股權(quán),也就是說不要財(cái)務(wù)回報(bào),而要投票權(quán),我在想為什么Sam要去做這樣一種設(shè)置?
戴雨森:Sam其實(shí)提到了一點(diǎn),微軟現(xiàn)在雖然有 49% 的收益權(quán),可以賺錢,但是它沒有控制權(quán)。因?yàn)樗麄儚囊婚_始就相信這樣的技術(shù)很危險(xiǎn),需要得到有效的監(jiān)管和控制,不能夠落入邪惡的大公司手里。但是,又因?yàn)榇蠊居绣X,能夠幫助小初創(chuàng)公司去開發(fā),所以大家才定下來這種收益和控制分開的協(xié)定。這是一個很有意思的設(shè)定,大家提前把話說清楚,賺錢,控制,你只能選擇一個。最開始,OpenAI就是因?yàn)椴辉谶@種大集團(tuán)里,才吸引了很多優(yōu)秀人才,但是隨著公司未來越做越大,還是得解決被資本裹挾的問題。
硅谷101:我看到你們也投大模型的應(yīng)用層,我很好奇從投資的角度,你會怎么去判斷一個項(xiàng)目,甚至是一個人他值不值得投?
戴雨森:底層能力我們一直認(rèn)為是類似的,比如說學(xué)習(xí)力、領(lǐng)導(dǎo)力、創(chuàng)新力、意志力,這些都是普世的優(yōu)秀品質(zhì)。但是,每個公司的情況不一樣,創(chuàng)始人所需要具備的技能也不一樣。某個新領(lǐng)域的第一家公司可能需要創(chuàng)始人有很強(qiáng)的探索能力,但第二家公司可能就需要更強(qiáng)的執(zhí)行能力,所以我覺得不宜直接去類比。
另外,OpenAI幾個人的搭配非常厲害,每個人在自己應(yīng)該做的事情上都是世界頂級的。比如Greg Brockman 90%的時間都在寫代碼,在這里我不是想強(qiáng)調(diào)他代碼寫的多么好,而是想說在公司早期很多事情都不確定的時候,組織里面有一個非常有話語權(quán),執(zhí)行力非常高,且知道每一個環(huán)節(jié)都在具體做什么的人非常重要。當(dāng)公司業(yè)務(wù)已經(jīng)比較清楚,且到達(dá)了一個學(xué)習(xí),研究和探索的階段后,如果核心成員會的東西牽涉到的領(lǐng)域多,牽涉到團(tuán)隊(duì)多,就會很有幫助了。但不管怎么說,有技術(shù)背景的人當(dāng) CEO ,也有老王這種商業(yè)業(yè)務(wù)背景人的人當(dāng) CEO,創(chuàng)業(yè)它永遠(yuǎn)無法是一副完美的牌,哪怕你有看上去完美的牌,你也未必能打得完美它。
硅谷101:最后還有什么要補(bǔ)充的嗎?
戴雨森:首先,我覺得 AI 這一波跟之前的元宇宙, Web 3 這種大家覺得有泡沫的浪潮,我覺得還有些不太一樣的地方。任何科技進(jìn)步都有很多泡沫,沒有泡沫的地方也不會有啤酒,但是我覺得判斷一個事情是不是只有泡沫,取決于他是否給普通的用戶提供了直接的價(jià)值。不管是AIGC還是Chatgpt,都做到了在使用門檻低的情況下給普通用戶提供了價(jià)值。原來我們所有的技術(shù)其實(shí)都在改進(jìn)我們使用的工具,而這次是第一次我們直接改變了工具,并且這個新工具可能是比我們?nèi)祟愡€要更強(qiáng)大。數(shù)字世界的迭代是非常快的,我們看到的像Auto-GPT這樣的雛形,可能三五年之后就會變得完全不一樣,會完善、成熟很多。所以在這個過程中我們要保持開放心態(tài)。
然后最重要的一點(diǎn),在一個技術(shù)革命的早期去預(yù)測未來,基本上都是錯的。試想 2010 年的時候,移動互聯(lián)網(wǎng)的浪潮其實(shí)已經(jīng)開始了,然后移動互聯(lián)網(wǎng)跟互聯(lián)網(wǎng)比其實(shí)也差不太多,但如果讓你在 2010 年預(yù)設(shè) 2023 年的移動互聯(lián)網(wǎng)贏家,你會想到字節(jié)、快手、小紅書、拼多多、美團(tuán)、滴滴、Uber嗎?我覺得非常難。如果移動互聯(lián)網(wǎng)都這么難,那預(yù)測AI 我覺得就更難。就有人說大模型會吞食掉應(yīng)用的空間,有人說開源會戰(zhàn)勝閉源,我覺得我們一定要記住,這是一個大部分人就只接觸了幾個月的技術(shù),所以這個時候大家可以猜測,但不用特別在意它的精確度。尤其是對于年輕人來講,早點(diǎn)的去投身其中,去嘗試、去探索其實(shí)是才是代表命運(yùn)最好的方式。
在過去幾年我經(jīng)常聽人說 80 后很幸運(yùn),因?yàn)橼s上了互聯(lián)網(wǎng)的浪潮。我覺得20 年之后,大家會說 00 后很幸運(yùn),因?yàn)橼s上了AGI火花的誕生。我相信技術(shù)成熟有利于成熟創(chuàng)業(yè)者,但新技術(shù)反而利好年輕人。
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論