高清AV无码一区,欧美性交一级在线观看

隨著AI過火，最近越來越多的中國大模型加入了這場AI大模型之戰(zhàn)。中國的大模型跟海外大模型相比到底怎么樣？真格基金做了一套大模型的大模型測試集Z-Bench，設(shè)計(jì)了300個問題去評估中外大模型之家的綜合能力。

在這套評分系統(tǒng)下，今年3月份的測試數(shù)據(jù)，OpenAI推出的GPT3.5得分60多分，之后GPT4發(fā)布得分80分。在這套評分系統(tǒng)剛剛推出來的3月份，真格對中國幾家創(chuàng)業(yè)公司的模型水平做了測試：，一家是30分，一家是19分，國產(chǎn)的文心一言大概是20分左右的水平，幾個月前差距還是比較大。

“就在前兩天我們也陸續(xù)拿到一些國產(chǎn)的上市公司或者大型公司做的模型，又進(jìn)行了一些測試，商湯的模型已經(jīng)到了 50 分的水平。這也就是說國產(chǎn)大模型得分一開始和GPT差距很大，但現(xiàn)在的差距的確在不斷縮小。”真格基金管理合伙人戴雨森在和《硅谷101》的談話中稱：“但這里面同時也會有一個問題，就是說模型的提分會不會有個平臺期，可能你從 20 追到 50 是容易的，但 50 到 80 可能就很難了。”

本期，《硅谷101》主理人泓君對話真格基金管理合伙人戴雨森，我們將聊聊，他對國內(nèi)外頂尖大模型的使用體驗(yàn)；以及除了芯片問題，國產(chǎn)大模型還有哪些要解決的問題。

大模型的使用體驗(yàn)：效果震撼，迭代速度快

硅谷101：我對你特別感興趣的有兩點(diǎn)，第一是想問你對于大模型的使用體驗(yàn)，因?yàn)槲铱茨闶且粋€大模型的深度使用者，不管是語言模型還是 Midjourney。第二就是想問作為一個投資人，你是怎么看這些大模型的？今天我們的談話也會分成這兩個部分去聊。你是什么時候開始注意到大模型然后去使用它的？

戴雨森：首先我我非常喜歡嘗試新東西，所以我相信在一個大的革命發(fā)生的時候，最好的方式就是去使用，體驗(yàn)，而不是只是研究。在 GPT3 出來的時候，我其實(shí)也在一些 demo 上嘗試過，但坦率來講，那個時候 GPT3 表現(xiàn)出來的對話能力，尤其是中文對話能力沒有那么強(qiáng)。在 ChatGPT 出來的當(dāng)天晚上，我的一位同事第一時間用上了ChatGPT，他非常的興奮，一直用到凌晨五六點(diǎn)鐘。我當(dāng)時沒有OpenAI賬號，所以我還專門弄了一個國外手機(jī)號，結(jié)果終于在十幾二十個小時之后用上了ChatGPT。

我最震撼的是我當(dāng)時給ChatGPT用自然語言描述了一下“20 問”這個游戲的規(guī)則。這個游戲本質(zhì)上就是我心里想一個東西，你可以通過最多問 20 個問題來嘗試猜到我心中想的是什么，而我只能回答是，否，或者不確定。我大概用 100 多個字把這個規(guī)則跟ChatGPT描述了一遍，他就可以開始和我進(jìn)行游戲了。第一次我想的是貓，它用了大概五六步就猜到了是貓。第二次我想的是拜登，它用了大概 14 步就猜到了拜登，我真的徹底被震驚了。

硅谷101：你覺得和真人比，ChatGPT的水平如何？

戴雨森：我覺得第一步是他能夠理解我給他的這個規(guī)則。第二步是他能夠有效地使用二分法去進(jìn)行查找。如何高效地尋找玩家心中所想的詞匯？這時候就需要做一些二分法。比如玩家心里想的詞是不是有生命的？如果有生命，那他是不是人？是一個活著的人還是逝去的人？這些查找的方式都還挺不一樣的，但我覺得ChatGPT其實(shí)做得非常好。后來我還嘗試讓ChatGPT跟我下棋，寫代碼，還有當(dāng)我的英語老師，他可以從初中到研究生水平給我出不同的英語的題，改我寫的英語作文，并且給出很多很好的建議。越使用ChatGPT，我越能發(fā)現(xiàn)他能不斷完成不同的任務(wù)。

硅谷101：除了ChatGPT，你也是Midjourney的重度用戶，你能感受到它從V3到V5的進(jìn)化嗎？我們剛剛在講大語言模型，那現(xiàn)在再來說說擴(kuò)散模型，你覺得它表現(xiàn)的怎么樣？

戴雨森：Midjourney我是從 V3 開始用的。那時候它雖然可以產(chǎn)生一些有意思的概念，但和實(shí)際使用還有很大的差距，因?yàn)樗€是不太能做出比較逼真的畫面。但 V4 的效果直接上了個大臺階。V4 對于人物、照片的處理，包括一些很風(fēng)格化的處理，很明顯到了一個能夠打敗大多數(shù)的普通藝術(shù)從業(yè)人員的水平。

接下來再來說說V5。V5 讓很多細(xì)節(jié)和場景變得更真實(shí)了，所以有的時候不是那么的風(fēng)格化，這就更貼近現(xiàn)實(shí)生活了。V5還有一個重要的功能就是“describe”。describe 的功能是讓你傳一張圖片，然后模型可以給你生成幾個可能的prompt。傳統(tǒng)的文生圖工具需要你直接對著一個輸入框去想你要畫什么，這其實(shí)很難，因?yàn)槿说膭?chuàng)作往往是先看到某個圖片或者物體，被激發(fā)了靈感，然后再在這個基礎(chǔ)上進(jìn)行調(diào)整。

舉個具體例子，假設(shè)我看到一個圖片的構(gòu)圖不錯，但我想改一下圖中的對象，或者我看到一個圖片景色不錯，但我想把畫中的“白天”改成“晚上”，這時候我就可以使用describe功能，讓模型幫我去生成一個很好用的prompt，然后我在此prompt的基礎(chǔ)再進(jìn)行修改。這與我之前先在腦子里主動想到一個場景，再根據(jù)語言詳細(xì)描述該畫面，自己從頭寫prompt的工作方式相比，簡單不少。

再總結(jié)一下，describe 就是圖生文，只不過生成的文是prompt，然后你可以直接用這個 prompt 再生成圖。

（圖片來源于網(wǎng)絡(luò) Midjourney的describe功能）

硅谷101：我記得你之前說你一直想畫一個大教堂，但是一直沒畫出理想的，卡在哪了？

戴雨森：可能我當(dāng)時沒用describe這個功能去嘗試，如果我上傳一張科隆大教堂的圖，讓模型給我生成一個prompt，再基于這個prompt進(jìn)行修改，沒準(zhǔn)就能畫出理想的圖片了。但說實(shí)話，如果你想很仔細(xì)的畫一個東西，Midjourney不太行，在這方面stable diffusion加control net會更有優(yōu)勢。Midjourney的特長在于幫你進(jìn)行頭腦風(fēng)暴和畫出很有藝術(shù)感的圖。但當(dāng)加入了 describe 這些元素之后，模型的可控性就會變強(qiáng)一些，因?yàn)槲蚁嘈糯蠖鄶?shù)公司都是需要有時候發(fā)散，有時候可控。大量的商業(yè)場景是還是需要可控的，如果它完全不可控，那肯定不是一個最有效率的方式，但是可能是一個最有意思的方式。

硅谷101：剛剛你提到了很多大模型讓你驚艷的部分，但如果反過來想，你覺得這些模型有哪些地方表現(xiàn)得還不夠好？有一個AI研究員告訴我們說如果你不知道某個問題的答案，就不要問ChatGPT，因?yàn)樗o你的可能是對的，也可能是胡謅的。從你的角度，你覺得ChatGPT在哪些任務(wù)中可以被直接應(yīng)用，而哪些方面還不太行？

戴雨森：首先，我覺得所有和語言相關(guān)的任務(wù)ChatGPT都可以直接應(yīng)用。這個語言包括自然語言和編程語言。實(shí)際上現(xiàn)在很多人的代碼已經(jīng)有超過一半是 Copilot 寫的了。ChatGPT 能夠很好地完成像翻譯、總結(jié)、改寫、擴(kuò)寫等一系列語言任務(wù)，因?yàn)樗旧砭褪谴笳Z言模型。其次，需要頭腦風(fēng)暴的任務(wù)ChatGPT也可以很好的處理。比如列提綱，寫信，或者寫job description，針對這些任務(wù)，我都可以先讓ChatGPT把大概的內(nèi)容列出來，然后我再進(jìn)行修改。

但是，如果你長期使用ChatGPT，你會意識到它的缺點(diǎn)非常多，但同時你應(yīng)該也能發(fā)現(xiàn)它在非?？斓氐托拚?。在ChatGPT剛出的時候，它連三位數(shù)的加法都還沒法準(zhǔn)確計(jì)算，但現(xiàn)在它其實(shí)能做更多位數(shù)的加法了，不過在乘法運(yùn)算上還是差一些。另外，它對于事實(shí)性問題的回答肯定還是不太行。

所以，你要從語言和邏輯的角度使用ChatGPT。但如果你想從知識的角度去使用它，很多時候還是要通過 prompt 或者 embedding 的方式把增值的新信息給它快速灌進(jìn)去，否則他就很可能會胡謅答案。整體來講，當(dāng)你意識到它有這些缺點(diǎn)的時候，就不太會被它騙。但如果有一天ChatGPT的知識準(zhǔn)確度達(dá)到了99%，只有 1% 的時候胡說八道，那個時候可能才是最危險(xiǎn)的。

300個問題組成大模型的評分系統(tǒng)

硅谷101：我看到你們做了一個專門評價(jià)大模型評估的Benchmark，為什么要設(shè)計(jì)這樣一款模型？從你的評估模型來看， GPT 4 比 GPT 3. 5 好在哪？如果再把它跟一些國產(chǎn)的大模型比，好在哪？

戴雨森：先來介紹一下我們做這個評估模型的背景。當(dāng) ChatGPT 火了之后，出現(xiàn)了很多做聊天機(jī)器人或者做國產(chǎn)大模型的初創(chuàng)公司，有的公司用了ChatGPT，有的說自己訓(xùn)了模型。但是，哪怕很多資深的投資人在面對一個新的類似GhatGPT的應(yīng)用時，能做的也就是隨便問幾個問題，這種問題可能是隨便想的，或者說是難度比較低的，但這樣的測試其實(shí)很難反映出這個類似ChatGPT軟件的真實(shí)水平。

我們作為非技術(shù)人員，其實(shí)也不想做一個特別嚴(yán)謹(jǐn)?shù)臏y試集，但我們希望能實(shí)現(xiàn)手工檢驗(yàn)?zāi)Ｐ偷倪吔缒芰Γ虼?，我們希望讓這些測試問題有區(qū)分度，有來歷。我們有時候會問一些日常中比較有意思的問題，比如問它麻辣螺絲釘?shù)淖龇?，看它會不會跟著胡編亂造。同時學(xué)界也有很多 NLP 任務(wù)的研究，比如OpenAI在 ChatGPT 出來的時候就公布說 ChatGPT 已經(jīng)具備了 48 種基礎(chǔ)能力，然后我們就通過這個構(gòu)建了第一版版本的測試問題。

我們還從MMLU和BIG-bench這些比較成熟的NLP測試集中抽取了一些能在各個領(lǐng)域反映模型不同能力的內(nèi)容。同時，我們也參考了 ChatGPT 新具備的能力，如涌現(xiàn)能力，寫代碼能力，用 SVG 語言畫圖的能力，處理更復(fù)雜應(yīng)用題的能力，最后總共設(shè)計(jì)了 300 個問題。這樣一來，非技術(shù)人員也能夠通過手工輸入測試，來對一個大模型的整體能力進(jìn)行評價(jià)了。

（備注：MMLU是一個2020年推出的包含57個不同學(xué)科的數(shù)據(jù)集，科目從STEM到人文，題目難度從初級到高級不等，主要目的是為了檢驗(yàn)預(yù)訓(xùn)練模型的知識獲取程度。BIG-bench同理也是一個自然語言理解基準(zhǔn)測試，旨在評估人工智能模型的泛化能力、理解力和創(chuàng)造性。）

在三月份的時候我們測試了一下，GPT 3.5的分?jǐn)?shù)是60多分，而GPT 4則是大概70分。

硅谷101：這個 60 多分是怎么打的？怎么樣的評價(jià)標(biāo)準(zhǔn)？

戴雨森：用回答正確數(shù)量除以300。國產(chǎn)的文心一言大概是20分左右的水平，我們還測試了幾家創(chuàng)業(yè)公司的模型水平，一家是30分，一家是19分，雖然我們需要鼓勵創(chuàng)業(yè)公司，但是差距還是比較大。前兩天我們也陸續(xù)拿到一些國產(chǎn)的上市公司或者大型公司做的模型，又進(jìn)行了一些測試，整體來講進(jìn)步還是很快的。比如說商湯的模型已經(jīng)到了 50 分的水平。到了現(xiàn)在，GPT 4 現(xiàn)在也許已經(jīng)可以打 80 多分了，這也就是說國產(chǎn)大模型得分一開始和GPT差距很大，但現(xiàn)在的差距的確在不斷縮小。但這里面同時也會有一個問題，就是說模型的提分會不會有個平臺期，可能你從 20 追到 50 是容易的，但 50 到 80 可能就很難了。

硅谷101：除了從分?jǐn)?shù)角度對比不同的模型，能不能給大家舉個例子，假設(shè)針對同一個問題，GPT3.5， GPT 4還有文心一言的回答都是怎么樣的？

戴雨森：假設(shè)你問這些大模型麻辣螺絲釘?shù)淖龇?，?yīng)該只有 GPT4會瞬間告訴你螺絲釘不是一個菜，不能吃；但其他的模型都會假模假樣的說麻辣螺絲釘?shù)淖龇ㄊ欠派侠苯?，加上紅油，然后再加入螺絲釘少許。同樣，當(dāng)時我們還有一個很經(jīng)典的問題，就是問大模型為什么爸媽的婚禮沒邀請我參加。只有GPT 4 回答了正確答案——你當(dāng)時還沒出生；而其他模型都回答說可能因?yàn)楫?dāng)時他們太忙沒邀請你，或者你沒時間。

硅谷101：你剛提到的這個麻辣螺絲釘?shù)睦犹貏e有趣。我們之前在播客錄制的時候，有一個嘉賓直接在播客里問我晚上有沒有吃爆炒籃球。后來在這個播客播出去了以后，就有很多聽眾在 GPT 3.5上搜爆炒籃球，我看按照他們評論的時間，最開始 GPT3.5 還會一本正經(jīng)地解釋這個爆炒籃球怎么做。但是隔了一兩天后，GPT 3.5第一次告訴大家爆炒籃球不能吃，或者這樣做是有風(fēng)險(xiǎn)的。再隔一天 GPT 3.5就會告訴大家，爆炒籃球不是一個菜，就不應(yīng)該這樣做，由此可見GPT3.5是在不斷進(jìn)化的，而且進(jìn)化速度很快。

戴雨森：你去用 ChatGPT 的時候，你會發(fā)現(xiàn)下面有一行小字，這個小字就是告訴你現(xiàn)在用的是ChatGPT 哪一天的版本。在我們不斷和ChatGPT進(jìn)行交互的過程中，用戶可以頂，可以踩，也可以重新讓ChatGPT生成新的回答，生成新回答之后ChatGPT可能還會問你這個新答案比原來的更好還是更差。所以其實(shí)我們用戶是在不斷的通過人工反饋，來讓模型訓(xùn)練的越來越好，這就形成了數(shù)據(jù)的飛輪效應(yīng)。雖然很多地方都有這種用戶的對話數(shù)據(jù)，但是就用戶跟特定聊天機(jī)器人的對話數(shù)據(jù)而言，ChatGPT 的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于其他人。

硅谷101：說到大模型的變化，過去兩個月的進(jìn)展真的太快了。在過去一兩個月內(nèi)，大模型領(lǐng)域有哪些進(jìn)展？你現(xiàn)在的認(rèn)知跟兩個月以前有什么不一樣？

戴雨森：我覺得進(jìn)展非常大。在ChatGPT剛出來的時候，我只是把它當(dāng)作一個聊天機(jī)器人，我們驚訝的是它能夠進(jìn)行多輪對話，還能夠根據(jù)下文給出合適的回答，但這基本都屬于 NLP 的任務(wù)。

后來，我們逐漸發(fā)現(xiàn)它可以寫代碼，寫營銷文案，甚至圖像類的生成模型還能幫我們生成精美的圖片、照片、還有漫畫。這時候，ChatGPT就從聊天機(jī)器人進(jìn)入到下個Copilot階段。在這個階段，它能夠幫助我們?nèi)プ龊芏嗍虑?，而我們要做的就是給出目標(biāo)，幫助Copilot進(jìn)行選擇和調(diào)整。

接下來，得益于像reflection、Hugging-GPT 這幾篇論文，Auto-GPT和Baby AGI這類大模型也逐漸發(fā)展起來了。這些模型能夠識別一個任務(wù)，把它進(jìn)行拆解，分解成子任務(wù)，調(diào)動合適的工具去完成子任務(wù)，觀察自己完成的結(jié)果，對結(jié)果進(jìn)行反思，并且調(diào)整他要做的任務(wù)，實(shí)現(xiàn)了從識別任務(wù)到調(diào)整任務(wù)的一整個循環(huán)。

同時，GPT 4 也出了插件系統(tǒng)，之后它就可以調(diào)用外部的插件去檢索信息，寫代碼，然后完成很多更復(fù)雜的任務(wù)。在這個階段，大模型又從 Copilot 進(jìn)一步變成了Agent。那么在 Agent 的設(shè)定下，大模型就可以基于人給出的初始目標(biāo)，然后通過自我迭代去完成目標(biāo)了。

如果我們把大模型的迭代跟自動駕駛?cè)Ρ鹊脑?，大模型也可以有一個五級分類：

國產(chǎn)大模型：不止是芯片問題

硅谷101：中國最近也有很多大廠的大模型在密集發(fā)布，比如說百度、阿里、華為；另外，上一批移動互聯(lián)網(wǎng)創(chuàng)業(yè)的成功者也在做大模型，比如王慧文，王小川；像賈揚(yáng)清、李志飛之前說要做大模型，但現(xiàn)在做的應(yīng)該算是應(yīng)用。你能否介紹一下，中國市場大家做的大模型分別都是什么？

戴雨森：目前來看，像百度、字節(jié)、阿里、騰訊、商湯、360這些大廠，包括王慧文、王小川的公司，唐杰帶隊(duì)的智譜，這些都是想做一個類似GPT 3.5或者GPT 4的大模型。這類大模型一般都有上百億參數(shù)，能夠解決很多 NLP 和通用領(lǐng)域的問題。但是像賈揚(yáng)清，他可能是想做一個偏中間層的創(chuàng)業(yè)公司。我覺得在這過程中肯定大家也會去思考到底大模型是不是適合我做，以及現(xiàn)在是不是做這件事的最好的時機(jī)。
同樣，大家現(xiàn)在是基于有了ChatGPT才能夠去延申的這么一個邏輯。但越到后來大家可能越會有不同的觀點(diǎn)出現(xiàn)：第一，如果出現(xiàn)了一個很好用的國產(chǎn)大模型，沒有搶到頭籌的團(tuán)隊(duì)可能就會去想是不是轉(zhuǎn)去做應(yīng)用會更好？第二，做大模型真的是了解現(xiàn)在的 AGI 或者未來 AGI 能力的唯一途徑嗎？也許大家未來會有其他理解方式，所以其實(shí)也沒必要做大模型。
舉個更形象一點(diǎn)的例子，目前大家只有坐船才能到美洲，所以所有人都先造船。如果有一天大家有飛機(jī)了，那也不用造船了。但就目前沒有飛機(jī)的情況來看，還是得先造船?，F(xiàn)在在中國，所有人都沒有船，因此大家的第一反應(yīng)都是要自己造，這是個很正常的情況。美國為什么沒有什么獨(dú)立做大模型的新公司了？因?yàn)槊绹呀?jīng)有幾條固定的“大船”了，如OpenAI號，Claude號（Claude是由Anthropic開發(fā)的聊天機(jī)器人，Anthropic是由OpenAI黑手黨創(chuàng)立的AI公司），Cohere號（Cohere是一個在多倫多的NLP處理平臺公司，由Google前研究人員創(chuàng)立），還有Bard號（Bard是Google開發(fā)的基于LaMDA大語言模型的聊天機(jī)器人）。有了船之后，人們就該思考“到美洲之后我該做什么” 了，有的人去種棉花，有的人去挖煤炭，于是各種用于不同場景的應(yīng)用就相繼出現(xiàn)了。

硅谷101：那中國的大模型未來是一個怎么樣的格局？是一家獨(dú)大，還是百家爭鳴？

戴雨森：我覺得這個問題目前來看還沒有答案，我覺得未來的大模型格局會是一個光譜。
第一種就是集中度最高，也就是贏者通吃的局面。如果大模型未來是一個主要ToC 的場景，也就是說未來很多人都會用像 ChatGPT 這樣的助理，那么我可以想象，大部分人最后都只會用某一個最領(lǐng)先的助手，可能是ChatGPT，也可能是另一家公司，但我完全沒有理由用一個第二名的。就像Google的搜索引擎占了93%的搜索引擎份額，你如果做的引擎超不過Google，我肯定不用你，就算你超過了，但沒超過太多，我也沒動力為你改變我之前的習(xí)慣。
第二種，也有可能形成一個寡頭壟斷的局面。假設(shè)未來使用大語言模型的場景是 ToB而非ToC，并且OpenAI沒辦法長期保持一個特別遙遙領(lǐng)先的狀態(tài)，那么第一梯隊(duì)可能會有 2 到 3 家或者3 到 4 家都還不錯，各有特點(diǎn)的公司。這就像公有云一樣，有的公司跑在AWS上，有的跑在Azure上，還有的跑在 Google Cloud Service 上。
第三也有可能形成一個百家爭鳴的局面。大模型這事現(xiàn)在很厲害，但當(dāng)它逐漸變成開源的，越來越多的人都可以把開源的模型微調(diào)之后部署在自己的服務(wù)器上，那這個時候可能就變成了一種百家爭鳴狀態(tài)。也許 OpenAI 就是一個開創(chuàng)者，未來它的大量技術(shù)都變成了人類共有的技術(shù)。

硅谷101：在聊到中美大模型的時候，大家都會談到芯片。如果未來芯片不能持續(xù)的供應(yīng)給中國，或者說中國的芯片性能跟不上，但美國的芯片還在持續(xù)進(jìn)化中，你是否覺得中美大模型之間的差距會越來越大？

戴雨森：第一，我們要弄清楚大模型訓(xùn)練是個百米賽跑，還是百公里長跑？如果它是一個很快會遇到瓶頸的事情，那可能現(xiàn)有的算力就夠了。但是，如果模型未來會變得越來越大，那現(xiàn)在這些芯片就不太能用了。雖然現(xiàn)在很多人認(rèn)為后者是未來格局，但是也不一定。
第二，模型訓(xùn)練的效率和方法本身也在不斷提高，在之前需要很多算力才能被訓(xùn)練的模型，現(xiàn)在也許會有更省算力的訓(xùn)練方式。
第三，芯片雖然是我們現(xiàn)在看到的一個顯著問題，但我們在數(shù)據(jù)、基礎(chǔ)設(shè)施、算法這些方面其實(shí)都有很多待解決的問題，因此我們不能把問題的解決方式只簡化成“買一萬塊A100芯片”。你如果非要一萬塊A100，其實(shí)國內(nèi)是有這個數(shù)量的，但是我們離用好1萬塊 A100 還差很遠(yuǎn)。
假設(shè)你想探索怎么去做一個像GPT 3.5那樣的模型，其實(shí)根本用不到一萬塊A100，你想想GPT 3其實(shí)是在一萬塊V100上訓(xùn)練出來的，而且GPT 3.5 本身就是一個更小的模型。所以，這件事反映出來我們其實(shí)有很多跟芯片一樣重要，甚至在短期比芯片更重要的問題還沒有被解決。

硅谷101：中文互聯(lián)網(wǎng)的數(shù)據(jù)你覺得會是一個問題嗎？

戴雨森：我覺得完全不是問題。簡單來說，ChatGPT 并沒有用什么獨(dú)有的中文數(shù)據(jù)，它就已經(jīng)在中文上具有這么好的表現(xiàn)了。如果從預(yù)訓(xùn)練的部分來看GPT 4的話，實(shí)際上維基百科和Common Crawl對應(yīng)的論文都是通過英文然后泛化到中文來的。
所以，我并不覺得Open AI 有什么我們沒有的中文數(shù)據(jù)，但如何用將現(xiàn)有的中文數(shù)據(jù)進(jìn)行清洗，標(biāo)注，提供人工反饋，這才是真正的難點(diǎn)?？梢娢覀冃枰鉀Q的是一個工程問題，而非語料問題。

AI的安全風(fēng)險(xiǎn)與未來

硅谷101：GPT 是怎么被做出來的，它中間經(jīng)歷了哪些重要的時刻？能否介紹一下幾個關(guān)鍵節(jié)點(diǎn)？

戴雨森：現(xiàn)在微軟可以每天訓(xùn)練一個 GPT3，因?yàn)橛?xùn)練 GPT3 已經(jīng)變成了一個順手可做的事情。但是微軟自己沒辦法訓(xùn)練 GPT4 ，只有在 Azure 那一臺專門為訓(xùn)練 GPT4 打造的超算上才可以進(jìn)行GPT4的訓(xùn)練，可見 GPT4的訓(xùn)練難度高了很多。

硅谷101：為什么微軟可以隨便訓(xùn)練一個 GPT3？而GPT4就不行？

戴雨森：GPT3 所需要的算力以及對應(yīng)的架構(gòu)已經(jīng)很成熟了，你可以直接通過云服務(wù)獲得算力，但 GPT4所需要的算力達(dá)到了一個新的級別。其實(shí) GPT4 初始的能力比現(xiàn)在強(qiáng)很多，我看過一些沒有經(jīng)過微調(diào)的GPT4 畫出來的圖像，它比現(xiàn)在GPT4 畫出的圖像精細(xì)很多。如果你看了“通用人工智能的火花”這篇論文，你會發(fā)現(xiàn) GPT4 是可以畫圖的。在論文中它畫了個獨(dú)角獸，但是那已經(jīng)是經(jīng)過微調(diào)之后的 GPT4 畫的了。沒有經(jīng)過微調(diào)的 GPT4 畫的圖其實(shí)要比那個精細(xì)很多。就換句話說，GPT4 為了和人類對齊，犧牲了很多它的能力。

硅谷101：你剛提到GPT4沒有經(jīng)過微調(diào)的版本比現(xiàn)在強(qiáng)大很多，為了讓它符合安全標(biāo)準(zhǔn)，不要說不該說的話或者有種族歧視，它經(jīng)歷了八個月的安全測試。你覺得OpenAI的下一步會怎么走？它有可能會把之前未閹割的模型版本再放出來一些嗎？

戴雨森：這個問題可能只有Sam Altman（OpenAI總裁）能回答。首先，OpenAI讓我覺得很厲害的一點(diǎn)就是他們一開始是一個研究機(jī)構(gòu)，而且研究內(nèi)容比較發(fā)散，但后來就變成了一個做產(chǎn)品的公司。
GPT4發(fā)布之后，我聽到兩種聲音：一部分人覺得很失望，因?yàn)樗鼪]有做文生圖或者多模態(tài)，主要還是文字。但同樣還有一部分人覺得很厲害，當(dāng)然后面插件和Auto-GPT出現(xiàn)之后，就更厲害了。這恰恰反映了 OpenAI 在用一種做好產(chǎn)品，做一個上億人使用的基礎(chǔ)產(chǎn)品的態(tài)度去做這件事情。如果是個學(xué)術(shù)研究機(jī)構(gòu)，他可能會更有動力去發(fā)表一個視頻到文字，或者說文字到視頻的研究結(jié)果。

OpenAI不光把已有的基礎(chǔ)打好了，它還在努力的讓產(chǎn)品去和現(xiàn)有的價(jià)值觀匹配，那么這個價(jià)值觀主要是美國加州白人男性的價(jià)值觀。全世界有很多文明，在一個文明完全正確的事情，在另外一個文明可能就是不正確的。同樣我們的價(jià)值觀變化也非?？?。十幾年前我在美國讀書的時候，同性婚姻還是非常禁忌的話題，當(dāng)時奧巴馬競選的時候都說不允許同性婚姻，但現(xiàn)在同性婚姻當(dāng)確是一個很受歡迎的價(jià)值觀。
在價(jià)值觀不斷演變的過程中，你會發(fā)現(xiàn) AI 該跟什么價(jià)值觀對齊，該如何動態(tài)調(diào)整，都還存在很多問題。那么在這個過程中我覺得也需要一些跨國的合作，就像核不擴(kuò)散國際公約一樣，但核不擴(kuò)散條約大家是否遵守還比較好檢驗(yàn)，但是在計(jì)算機(jī)里運(yùn)行著的最先進(jìn)的 AI 實(shí)際上很難被看出來。因此，我們一定要去思考該如何對這種未知，同時又可能具有很大破壞性的應(yīng)用進(jìn)行監(jiān)管。

舉個例子，電話詐騙、殺豬盤，現(xiàn)在可能是比較弱智的騙術(shù)，但以后有了AI的加持，就會變的更加強(qiáng)大。進(jìn)一步去想，假設(shè)在一個選舉中可以用 AI 打電話給100 萬個關(guān)鍵選民，結(jié)果有1萬人改了投票，也許美國總統(tǒng)就變了，這可能就是非常大的一個變化。另外，如果Auto GPT 調(diào)用了一個發(fā)消息應(yīng)用的API，它完全可以不知疲倦地生成虛假內(nèi)容，去添塞整個互聯(lián)網(wǎng)。AI 消滅人類還是比較偏科幻，但是它目前是個強(qiáng)大的語言工具，而我們又缺乏對于一個看似形式很完善的謊言的識別能力，所以這其實(shí)非常危險(xiǎn)。現(xiàn)在有些人抨擊OpenAI說它不開源，但我認(rèn)為如果我們還沒意識到GPT的能力，冒然開源可能會有很大的風(fēng)險(xiǎn)，至少我們等到知道該怎么防御，再進(jìn)行開源。

硅谷101：除了AI的安全風(fēng)險(xiǎn)，我覺得 OpenAI 的股權(quán)設(shè)置也很值得討論。Sam 本人他是沒有任何 OpenAI 的股權(quán)的，主要股權(quán)都給了OpenAI的科學(xué)家。OpenAI一開始是一個非盈利型公司，但后來又在非盈利下面設(shè)了一個盈利型公司。如果在盈利型公司有股權(quán)，就意味著可以獲得財(cái)務(wù)回報(bào)，但是在董事會就會沒有投票權(quán)。Sam 不持盈利性公司的股權(quán)，也就是說不要財(cái)務(wù)回報(bào)，而要投票權(quán)，我在想為什么Sam要去做這樣一種設(shè)置？

戴雨森：Sam其實(shí)提到了一點(diǎn)，微軟現(xiàn)在雖然有 49% 的收益權(quán)，可以賺錢，但是它沒有控制權(quán)。因?yàn)樗麄儚囊婚_始就相信這樣的技術(shù)很危險(xiǎn)，需要得到有效的監(jiān)管和控制，不能夠落入邪惡的大公司手里。但是，又因?yàn)榇蠊居绣X，能夠幫助小初創(chuàng)公司去開發(fā)，所以大家才定下來這種收益和控制分開的協(xié)定。這是一個很有意思的設(shè)定，大家提前把話說清楚，賺錢，控制，你只能選擇一個。最開始，OpenAI就是因?yàn)椴辉谶@種大集團(tuán)里，才吸引了很多優(yōu)秀人才，但是隨著公司未來越做越大，還是得解決被資本裹挾的問題。

硅谷101：我看到你們也投大模型的應(yīng)用層，我很好奇從投資的角度，你會怎么去判斷一個項(xiàng)目，甚至是一個人他值不值得投？

戴雨森：底層能力我們一直認(rèn)為是類似的，比如說學(xué)習(xí)力、領(lǐng)導(dǎo)力、創(chuàng)新力、意志力，這些都是普世的優(yōu)秀品質(zhì)。但是，每個公司的情況不一樣，創(chuàng)始人所需要具備的技能也不一樣。某個新領(lǐng)域的第一家公司可能需要創(chuàng)始人有很強(qiáng)的探索能力，但第二家公司可能就需要更強(qiáng)的執(zhí)行能力，所以我覺得不宜直接去類比。
另外，OpenAI幾個人的搭配非常厲害，每個人在自己應(yīng)該做的事情上都是世界頂級的。比如Greg Brockman 90%的時間都在寫代碼，在這里我不是想強(qiáng)調(diào)他代碼寫的多么好，而是想說在公司早期很多事情都不確定的時候，組織里面有一個非常有話語權(quán)，執(zhí)行力非常高，且知道每一個環(huán)節(jié)都在具體做什么的人非常重要。當(dāng)公司業(yè)務(wù)已經(jīng)比較清楚，且到達(dá)了一個學(xué)習(xí)，研究和探索的階段后，如果核心成員會的東西牽涉到的領(lǐng)域多，牽涉到團(tuán)隊(duì)多，就會很有幫助了。但不管怎么說，有技術(shù)背景的人當(dāng) CEO ，也有老王這種商業(yè)業(yè)務(wù)背景人的人當(dāng) CEO，創(chuàng)業(yè)它永遠(yuǎn)無法是一副完美的牌，哪怕你有看上去完美的牌，你也未必能打得完美它。

硅谷101：最后還有什么要補(bǔ)充的嗎？

戴雨森：首先，我覺得 AI 這一波跟之前的元宇宙， Web 3 這種大家覺得有泡沫的浪潮，我覺得還有些不太一樣的地方。任何科技進(jìn)步都有很多泡沫，沒有泡沫的地方也不會有啤酒，但是我覺得判斷一個事情是不是只有泡沫，取決于他是否給普通的用戶提供了直接的價(jià)值。不管是AIGC還是Chatgpt，都做到了在使用門檻低的情況下給普通用戶提供了價(jià)值。原來我們所有的技術(shù)其實(shí)都在改進(jìn)我們使用的工具，而這次是第一次我們直接改變了工具，并且這個新工具可能是比我們?nèi)祟愡€要更強(qiáng)大。數(shù)字世界的迭代是非常快的，我們看到的像Auto-GPT這樣的雛形，可能三五年之后就會變得完全不一樣，會完善、成熟很多。所以在這個過程中我們要保持開放心態(tài)。

然后最重要的一點(diǎn)，在一個技術(shù)革命的早期去預(yù)測未來，基本上都是錯的。試想 2010 年的時候，移動互聯(lián)網(wǎng)的浪潮其實(shí)已經(jīng)開始了，然后移動互聯(lián)網(wǎng)跟互聯(lián)網(wǎng)比其實(shí)也差不太多，但如果讓你在 2010 年預(yù)設(shè) 2023 年的移動互聯(lián)網(wǎng)贏家，你會想到字節(jié)、快手、小紅書、拼多多、美團(tuán)、滴滴、Uber嗎？我覺得非常難。如果移動互聯(lián)網(wǎng)都這么難，那預(yù)測AI 我覺得就更難。就有人說大模型會吞食掉應(yīng)用的空間，有人說開源會戰(zhàn)勝閉源，我覺得我們一定要記住，這是一個大部分人就只接觸了幾個月的技術(shù)，所以這個時候大家可以猜測，但不用特別在意它的精確度。尤其是對于年輕人來講，早點(diǎn)的去投身其中，去嘗試、去探索其實(shí)是才是代表命運(yùn)最好的方式。

在過去幾年我經(jīng)常聽人說 80 后很幸運(yùn)，因?yàn)橼s上了互聯(lián)網(wǎng)的浪潮。我覺得20 年之后，大家會說 00 后很幸運(yùn)，因?yàn)橼s上了AGI火花的誕生。我相信技術(shù)成熟有利于成熟創(chuàng)業(yè)者，但新技術(shù)反而利好年輕人。

大模型的使用體驗(yàn)：效果震撼，迭代速度快

300個問題組成大模型的評分系統(tǒng)

國產(chǎn)大模型：不止是芯片問題

AI的安全風(fēng)險(xiǎn)與未來

敬原創(chuàng)，有鈦度，得贊賞

大模型的使用體驗(yàn)：效果震撼，迭代速度快

敬原創(chuàng)，有鈦度，得贊賞