圖片來(lái)源@視覺(jué)中國(guó)
文 | 宇婷DayDayUp
根據(jù)創(chuàng)業(yè)投資家、前谷歌中國(guó)總裁、今年早些時(shí)候創(chuàng)辦了位于北京的大型語(yǔ)言模型開(kāi)發(fā)初創(chuàng)公司01.AI的李開(kāi)復(fù)的說(shuō)法,中國(guó)的生成型人工智能初創(chuàng)公司正在經(jīng)歷“預(yù)選賽階段”。上個(gè)月,該公司以10億美元的估值完成了一輪融資。
中國(guó)最大的互聯(lián)網(wǎng)公司,如阿里巴巴、騰訊、百度和字節(jié)跳動(dòng),以及數(shù)十家初創(chuàng)公司,都在開(kāi)發(fā)自己的大型語(yǔ)言模型,當(dāng)?shù)孛襟w將其描述為“百模之戰(zhàn)”。由于中國(guó)政府封鎖了OpenAI、谷歌和其他美國(guó)互聯(lián)網(wǎng)服務(wù),國(guó)內(nèi)公司正爭(zhēng)奪人工智能的霸主地位。李開(kāi)復(fù)在接受采訪(fǎng)時(shí)表示,公司目前正處于試圖證明自己具備構(gòu)建高質(zhì)量模型的技術(shù)的階段。那些通過(guò)了這一測(cè)試的公司將進(jìn)入下一階段,這將涉及如何增加收入并最終實(shí)現(xiàn)盈利。
李開(kāi)復(fù)的公司成立于今年3月,現(xiàn)在擁有100多名員工,大部分位于中國(guó)大陸,主要是北京。上個(gè)月,01.AI推出了其第一個(gè)開(kāi)源語(yǔ)言模型Yi-34B,但該公司不會(huì)依賴(lài)該模型來(lái)獲取未來(lái)的收入。相反,它的商業(yè)計(jì)劃是銷(xiāo)售專(zhuān)有的語(yǔ)言模型,主要面向中國(guó)的客戶(hù)。據(jù)李開(kāi)復(fù)稱(chēng),該公司目前正在開(kāi)發(fā)一個(gè)擁有超過(guò)1000億參數(shù)的新的專(zhuān)有模型。
上個(gè)月,Yi-34B迅速攀升至Hugging Face開(kāi)源語(yǔ)言模型排行榜的首位,引發(fā)了一些爭(zhēng)議。開(kāi)發(fā)者的詢(xún)問(wèn)揭示出Yi-34B使用了Meta Platforms的Llama開(kāi)源AI模型,但沒(méi)有提及Llama。最終,01.AI將Yi-34B的部分重命名以致謝Llama,并對(duì)此事進(jìn)行了道歉。
李開(kāi)復(fù)在北京的辦公室通過(guò)視頻通話(huà)接受了《The Information》的采訪(fǎng),他談到了01.AI如何應(yīng)對(duì)美國(guó)政府對(duì)芯片出口的限制,以及中國(guó)人工智能公司在全球的機(jī)會(huì)。以下是經(jīng)過(guò)編輯的問(wèn)答內(nèi)容。
我認(rèn)為中國(guó)在以前的很多情況下都經(jīng)歷過(guò)這種情況,比如Groupon的仿制品、共享單車(chē)應(yīng)用,以及在深度技術(shù)領(lǐng)域的計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別。當(dāng)計(jì)算機(jī)視覺(jué)被證明取得重大突破時(shí),中國(guó)的每個(gè)人都紛紛加入,并嘗試用各種可能的應(yīng)用。但其中大多數(shù)都沒(méi)有生存下來(lái)。中國(guó)市場(chǎng)是一個(gè)非常非常競(jìng)爭(zhēng)激烈的市場(chǎng),甚至可能比美國(guó)還要激烈。
目前中國(guó)的競(jìng)爭(zhēng)仍處于預(yù)選賽階段。第一個(gè)測(cè)試是:在這100家公司中,哪一家能夠創(chuàng)建出具有真正價(jià)值的高質(zhì)量模型?這意味著要展現(xiàn)出良好的性能,因?yàn)樵谔峁┯杏脙?nèi)容和戰(zhàn)略洞察方面,技術(shù)的優(yōu)劣仍然是至關(guān)重要的。如果你沒(méi)有足夠好的模型,那么它更像是一個(gè)玩具,而不是一個(gè)解決實(shí)際問(wèn)題的技術(shù)。
在預(yù)選賽階段通過(guò)技術(shù)測(cè)試的公司將進(jìn)入下一個(gè)階段,即商業(yè)價(jià)值。你的商業(yè)模式是什么?你如何賺錢(qián)?很快,這些公司將根據(jù)其損益報(bào)表進(jìn)行評(píng)估,投資者將問(wèn)與云服務(wù)提供商、企業(yè)軟件公司和消費(fèi)者應(yīng)用程序相同的問(wèn)題。如果公司無(wú)法回答這些問(wèn)題,它們的增長(zhǎng)將停止。在美國(guó),OpenAI已經(jīng)證明了其世界領(lǐng)先的技術(shù),它也能夠產(chǎn)生收入。OpenAI創(chuàng)造了足夠的價(jià)值,以至于人們?cè)谄渖蠘?gòu)建應(yīng)用并為此付費(fèi)。
在中國(guó),最終會(huì)有幾家大贏家,幾家不錯(cuò)的退出,但大多數(shù)公司最終要么會(huì)退出市場(chǎng),要么會(huì)轉(zhuǎn)向更為保守的領(lǐng)域,例如為特定行業(yè)構(gòu)建應(yīng)用程序和解決方案,而不是嘗試預(yù)訓(xùn)練的大型模型,因?yàn)檫@類(lèi)模型的成本將隨時(shí)間增加。
我們都不希望出現(xiàn)平行宇宙。我們更喜歡在全球范圍內(nèi)競(jìng)爭(zhēng),讓最好的公司獲勝。這樣更加高效。但在這種情況下,我們無(wú)法控制我們的命運(yùn)。
尤其存在地緣政治問(wèn)題。如果我們想進(jìn)入美國(guó)市場(chǎng),雖然沒(méi)有規(guī)定說(shuō)我們不能進(jìn)入,但由于當(dāng)前對(duì)中國(guó)軟件的(我認(rèn)為是不公平的)看法,我認(rèn)為我們不會(huì)獲得很多業(yè)務(wù)。所以這只是我們接受了的實(shí)際情況。
各國(guó)希望對(duì)自己的模型擁有更多控制權(quán)。
我確實(shí)認(rèn)為有機(jī)會(huì)為不同的國(guó)家構(gòu)建特殊的模型。這是硅谷公司自然不會(huì)去做的事情。為不同的市場(chǎng)構(gòu)建不同的模型是一項(xiàng)龐大的工程任務(wù)。因此,硅谷公司自然不會(huì)傾向于構(gòu)建這些模型。而來(lái)自世界其他地區(qū)的公司,包括中國(guó),可能有機(jī)會(huì)研究這些模型。當(dāng)然,他們必須贏得用戶(hù)和各國(guó)政府的信任。
我們擁有一個(gè)非常強(qiáng)大的基礎(chǔ)設(shè)施團(tuán)隊(duì)。這是我們團(tuán)隊(duì)中最大的一部分。我早些時(shí)候告訴我的員工,每當(dāng)你增加一個(gè)建模人員,你就在稀釋你的[圖形處理單元]。每當(dāng)你增加一個(gè)基礎(chǔ)設(shè)施人員,你就能更好地利用你的GPU。當(dāng)然,你需要一個(gè)強(qiáng)大的建模團(tuán)隊(duì),但從一開(kāi)始,我們就把建立一個(gè)強(qiáng)大的基礎(chǔ)設(shè)施團(tuán)隊(duì)作為首要任務(wù)。
基礎(chǔ)設(shè)施是默默無(wú)聞的英雄之工作。他們必須處理硬件、軟件和大量的數(shù)據(jù)傳輸。他們同時(shí)處理GPU、內(nèi)存和網(wǎng)絡(luò),其中任何一個(gè)都可能成為瓶頸。
GPU很難擴(kuò)展到數(shù)千個(gè)以上。當(dāng)你從2000個(gè)擴(kuò)展到8000個(gè)時(shí),你不能只運(yùn)行現(xiàn)有的軟件,因?yàn)殡S著模型和數(shù)據(jù)規(guī)模的增大,網(wǎng)絡(luò)需求會(huì)發(fā)生巨大變化。
我們的基礎(chǔ)設(shè)施團(tuán)隊(duì)由幾十名工程師組成,目前是01.AI最大的團(tuán)隊(duì)。例如,我們的基礎(chǔ)設(shè)施團(tuán)隊(duì)所做的工作包括全面使用FP8——Nvidia H100芯片的一種數(shù)據(jù)格式,從而大幅減少計(jì)算量。團(tuán)隊(duì)找出了在哪些地方可以使用FP8,在哪些地方可以使用其他類(lèi)型,并且如何無(wú)縫轉(zhuǎn)換。他們還處理了像使用哪種網(wǎng)絡(luò)協(xié)議、如何優(yōu)化編譯器以及如何處理故障GPU等問(wèn)題。GPU的故障率實(shí)際上相當(dāng)高。當(dāng)一個(gè)GPU故障時(shí),你能熱插拔嗎?拔掉?我們?nèi)栽谂鉀Q這個(gè)問(wèn)題。如果你的訓(xùn)練因?yàn)橐粋€(gè)GPU在千個(gè)GPU集群中故障而停止一個(gè)小時(shí),能夠熱插拔將節(jié)省你每天一個(gè)小時(shí)的時(shí)間。這些小事情都會(huì)累積起來(lái)。
另一個(gè)相關(guān)的問(wèn)題是彈性訓(xùn)練。這意味著如果你有一個(gè)由2000個(gè)H100芯片組成的集群,并且你需要500個(gè)用于其他任務(wù),你能在檢查點(diǎn)之間移除它們,然后再添加回來(lái)嗎?這些任務(wù)與AI研究人員的訓(xùn)練并不相關(guān),更與網(wǎng)絡(luò)工程師有關(guān)。
如果LLM的開(kāi)發(fā)是火箭科學(xué),那么沒(méi)有工程師,火箭將永遠(yuǎn)無(wú)法起飛。SpaceX之所以成功,并不僅僅因?yàn)橐蝗貉芯咳藛T,而是因?yàn)樗幸淮笈浅?fù)雜、錯(cuò)綜復(fù)雜的工程師。
我公開(kāi)表示,我們有足夠的芯片供應(yīng)可以維持18個(gè)月的時(shí)間。這基本上是之前我們購(gòu)買(mǎi)的芯片。我們肯定在努力研究如何使用中國(guó)芯片。
Nvidia的芯片非常出色,但有人可能會(huì)爭(zhēng)辯說(shuō),一個(gè)更簡(jiǎn)單的芯片可以以更低的成本完成工作。但Nvidia的強(qiáng)大之處在于其圍繞CUDA軟件庫(kù)建立的整個(gè)生態(tài)系統(tǒng),使得編程變得簡(jiǎn)單。如果強(qiáng)迫工程師使用非Nvidia芯片,他們的工作效率會(huì)大大降低,他們基本上會(huì)反對(duì)這樣做。但我們現(xiàn)在面臨的問(wèn)題是在18個(gè)月內(nèi),我們必須開(kāi)始得更早。如果我們無(wú)法獲得Nvidia芯片,我們將尋找更專(zhuān)注于transformers的更簡(jiǎn)單的芯片,但編程將變得非常困難。但如果我們別無(wú)選擇,那我們就別無(wú)選擇。
但是中國(guó)工程師以能力強(qiáng)、肯做苦工而著稱(chēng)。這與我之前關(guān)于我們基礎(chǔ)設(shè)施團(tuán)隊(duì)的工作所說(shuō)的類(lèi)似。
中國(guó)的創(chuàng)業(yè)者堅(jiān)韌不拔。中國(guó)的工程師勤奮努力,他們不怕苦。這正是美團(tuán)打造卓越服務(wù)的原因,也是微信成為卓越產(chǎn)品的原因。
是的,這些都是困難的挑戰(zhàn),你可以說(shuō)它們是浪費(fèi)時(shí)間和許多人的精力。但這就是我們面臨的現(xiàn)實(shí),所以我們會(huì)盡力發(fā)揮我們的優(yōu)勢(shì)。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論