本期硅谷101以視頻播客的形式錄制,主播泓君邀請(qǐng)到前谷歌TPU工程師Henry。他在2018年至2024年間深度參與了三代TPU的研發(fā),也見證了大模型時(shí)代TPU的關(guān)鍵轉(zhuǎn)型。他將從硬件架構(gòu)、軟件生態(tài)、生產(chǎn)供應(yīng)鏈博弈三個(gè)維度,一層層揭開TPU的神秘面紗。

TPU與GPU有著完全不同的設(shè)計(jì)哲學(xué)。Henry用“流水線”與“大廚們”來比喻兩者的架構(gòu)差異:GPU起源于圖形處理,采用SIMT架構(gòu),如同一個(gè)廚房里擁有眾多獨(dú)立思考的大廚,可以并行處理多種任務(wù)。而TPU是專為機(jī)器學(xué)習(xí)矩陣計(jì)算定制的加速器,通過芯片間互聯(lián)(ICI)構(gòu)建起3D Torus網(wǎng)絡(luò),讓數(shù)千張芯片在用戶感知中如同一張芯片般協(xié)同工作。

他認(rèn)為TPU挑戰(zhàn)GPU的機(jī)會(huì)在于——在軟硬件深度協(xié)同下,TPU能夠在已知任務(wù)負(fù)載時(shí),對(duì)整顆TPU Pod進(jìn)行全局算子融合與內(nèi)存管理優(yōu)化,將硬件性能“榨干”到極致。這種設(shè)計(jì)使得TPU在模型相對(duì)穩(wěn)定、需要大規(guī)模部署的場景中,能夠?qū)崿F(xiàn)比GPU更低的推理成本。

然而TPU的短板也同樣明顯:

以下是這次對(duì)話內(nèi)容的精選:

01 TPU v.s GPU架構(gòu)對(duì)決:誰更省錢?誰更強(qiáng)?

泓君:很多人不清楚TPU跟英偉達(dá)的GPU,有什么樣的不一樣。我們可以先簡單給聽眾介紹一下。

Henry:首先TPU和GPU本身的架構(gòu)是完全不一樣的。GPU大家可能了解更加多一些,因?yàn)樽铋_始它是做游戲的顯卡,它是一個(gè)SIMT的架構(gòu)(Single Instruction Multiple Threading),它是一個(gè)多線程單一指令的架構(gòu),可以理解成一個(gè)廚房里面同時(shí)安排著很多很多個(gè)大廚,他們每個(gè)人都有獨(dú)立的思考能力。所以你安排很多很多大廚的話,這樣并行計(jì)算能力就會(huì)非常非常強(qiáng)。

泓君:如果我們同樣用做菜來比喻TPU的話,你覺得它的流程跟GPU有什么不一樣?

Henry:TPU和GPU最大的區(qū)別就是,TPU是一個(gè)針對(duì)機(jī)器學(xué)習(xí)的加速器。我們知道,機(jī)器學(xué)習(xí)任何的算法,里面的核心就是矩陣計(jì)算,包括最開始的CNN(卷積神經(jīng)網(wǎng)絡(luò)),到現(xiàn)在的Attention,到Transformer,到未來的架構(gòu)。矩陣計(jì)算這個(gè)東西是非常Compute Bound(計(jì)算密集型)。TPU就是針對(duì)這個(gè)矩陣計(jì)算專門做了一個(gè)定制的加速器。用做飯來比喻,TPU是一個(gè)流水線,不用安排那么多的大廚,它會(huì)把每一個(gè)步驟都告訴你具體做什么,比如說第一個(gè)人會(huì)從冰箱里把菜給取出來給第二個(gè)人,第二個(gè)人繼續(xù)做加工傳到第三個(gè)人。你可以理解成是心臟的泵血,每泵一次,它就會(huì)把血液傳輸?shù)侥闵眢w的各個(gè)角落。所以這樣的話,中間它會(huì)少很多的調(diào)度和調(diào)控,所以能保證每一個(gè)計(jì)算單元的使用率會(huì)更高一些。

泓君:在模型的訓(xùn)練上,這兩種不同的架構(gòu)各自的優(yōu)勢跟缺點(diǎn)是什么?

Henry:我覺得現(xiàn)在預(yù)訓(xùn)練,包括后面的推理,我們?cè)诼貜腃ompute Bound(計(jì)算密集型)變成Memory Bound(訪存密集型),所以我們現(xiàn)在對(duì)內(nèi)存的要求是非常高的。SIMT架構(gòu)有一個(gè)缺陷,因?yàn)槟阈枰?dú)立地去做這樣的計(jì)算任務(wù),所以在一直等數(shù)據(jù)搬運(yùn)過來的過程中,有時(shí)就會(huì)有一些idle period(空閑周期)。所以這個(gè)過程當(dāng)中就會(huì)導(dǎo)致它的矩陣計(jì)算利用率沒有那么高,utilization rate(產(chǎn)能利用率)就會(huì)有下降。

我覺得TPU彌補(bǔ)了這個(gè)缺點(diǎn),我們待會(huì)兒可以具體聊一下它軟硬件的協(xié)同效應(yīng)。TPU會(huì)保證它是一個(gè)滿功率下的運(yùn)行,它不需要等待數(shù)據(jù)搬運(yùn)的過程,它要么利用當(dāng)?shù)氐木彺?,把一些提前搬運(yùn)過來的數(shù)據(jù)重復(fù)去利用,要么把帶寬跑滿,這樣我們可以使內(nèi)存利用率能達(dá)到一個(gè)峰值。

泓君:所以用一句話來做結(jié)論,你覺得TPU跟GPU它們?cè)谀P偷挠?xùn)練上誰更強(qiáng),能優(yōu)化多少?

Henry:我覺得從預(yù)訓(xùn)練上來講的話,目前GPU和TPU最大的區(qū)別就是——當(dāng)然GPU現(xiàn)在也開始往那個(gè)方向去發(fā)展——因?yàn)門PU一直做系統(tǒng)層面設(shè)計(jì),它是一個(gè)大的計(jì)算集群,而不是單卡單芯片去做預(yù)訓(xùn)練。GPU可能很長一段時(shí)間都是單張卡的性能非常好,但是它沒有一個(gè)網(wǎng)絡(luò)。TPU一直是主打TPU Pod,它是一個(gè)有幾千張卡的協(xié)同訓(xùn)練的狀態(tài)。它里面牽扯到了很多通信,就是ICI,芯片間互聯(lián),它芯片與芯片之間通信和網(wǎng)絡(luò),我們叫做3D Torus,一個(gè)拓?fù)涞木W(wǎng)絡(luò)。它可以讓幾千張卡芯片在用戶的感覺當(dāng)中是一張卡的芯片,它中間訓(xùn)練效率是非常高的,這樣的話它的成本也可以打得下來。

泓君:我看新聞報(bào)道說谷歌V7,就是你研發(fā)的這套Ironwood,它的芯片在物理參數(shù)上已經(jīng)非常接近GB200了。所以它如果在真實(shí)的工作中,比如同樣是訓(xùn)練一個(gè)Gemini的模型,同樣的參數(shù)量,用GPU跟用谷歌的TPU,誰更省錢?

Henry:我覺得這是很好的問題。我的理解是,將來如果說谷歌給其他大模型公司定制的話,我覺得谷歌的性價(jià)比(TCO,Total Cost of Ownership)是更高的。當(dāng)你知道你的任務(wù)負(fù)載(Workload)是什么的時(shí)候,你就可以根據(jù)你的任務(wù)負(fù)載去做一些物理的芯片層面或軟件層面的定制。雖然說它可能有點(diǎn)“黑盒”的感覺,當(dāng)你所有的已知條件都確定下來時(shí),我覺得TPU在現(xiàn)實(shí)條件下,它的訓(xùn)練效率還是TCO,都會(huì)比GPU更加強(qiáng)大。它的利用率更好的原因,是它的FLOPs(單位時(shí)間內(nèi)做多少次浮點(diǎn)式運(yùn)算),因?yàn)門PU里面主要的架構(gòu)就是矩陣計(jì)算,所以它的軟件和硬件可以保證它每個(gè)時(shí)間、每個(gè)計(jì)算單元都有活在做。

我們的軟件相當(dāng)于幫助硬件說,我不會(huì)讓你閑下來,每個(gè)時(shí)間點(diǎn)你都有工作,但是你具體做什么活,是我告訴你的,你不需要精準(zhǔn)地去預(yù)測或怎么樣。硬件層面說,我們不會(huì)加很多的控制單元。這跟GPU很大的區(qū)別就是,我們不需要任何的預(yù)測,它預(yù)測的那一層面相當(dāng)于都是在軟件層面去實(shí)現(xiàn)的。所以相當(dāng)于你把硬件變得更蠢了一點(diǎn),相當(dāng)于是一個(gè)機(jī)械式的勞作,軟件那邊幫你把所有復(fù)雜難題都給處理掉。

所以Ironwood主要有兩大進(jìn)步。一個(gè)進(jìn)步就是它把它的峰值FLOPs數(shù)值上跟GPU更加接近了。另外一個(gè)點(diǎn)我覺得非常重要,就是它的內(nèi)存帶寬也是有一個(gè)巨大的提升,它肯定是用了更大的HBM,保證了一定的帶寬。第二點(diǎn)就是這個(gè)HBM的帶寬它能被軟件充分地去利用起來。

02 TPU產(chǎn)能之困 HBM、封裝、良率

泓君:更高性能的HBM,從供應(yīng)鏈的環(huán)節(jié)好找貨嗎?

Henry:非常難找。HBM有點(diǎn)壟斷的感覺,一共就三家公司壟斷這個(gè)生產(chǎn),應(yīng)該是SK hynix(海力士)、三星和Micron(美光科技)。英偉達(dá)一直是HBM最大客戶,TPU一直相當(dāng)于是一個(gè)次要客戶。之前TPU一直沒有辦法獲得那么好的HBM,或者說那么大的訂單。

谷歌TPU V7之前一直有一個(gè)產(chǎn)能的問題,第一點(diǎn)原因是V7之前我們一直沒有一個(gè)對(duì)外的生態(tài),更多是針對(duì)內(nèi)部的部署使用,所以我們沒有辦法和Broadcom(博通)、TSMC(臺(tái)積電),或者剛才所說的那幾家HBM廠商去鎖定一個(gè)很大的訂單。

第二點(diǎn),CoWoS屬于TSMC的核心產(chǎn)能。我們可以理解成,我們新一代的芯片都是跟以前完全不一樣,因?yàn)槲覀儸F(xiàn)在都做一個(gè)co-design,我們的HBM內(nèi)存芯片和計(jì)算芯片是兩塊獨(dú)立的芯片,通過一個(gè)2.5D stacking的封裝把它封裝成一個(gè)集成芯片。這個(gè)TPU Google自己做不了,Broadcom也做不了,它只能依賴于TSMC,所以TSMC給你分配多少產(chǎn)能,你就能達(dá)成多少產(chǎn)能。

泓君:如果把現(xiàn)在產(chǎn)能的瓶頸總結(jié)一下,一塊是CoWoS跟TSMC,在封裝上的產(chǎn)能。還有一塊是HBM,高帶寬的內(nèi)存供應(yīng),由三大壟斷巨頭去把持。

Henry:還有一點(diǎn)就是良率。良率意味著,當(dāng)你TSMC把一個(gè)wafer die(晶圓晶粒)生產(chǎn)出來之后,它上面這一塊wafer上有多少是合格的芯片。因?yàn)門PU和GPU的制造理念是不太一樣的。TPU主打芯片與芯片之間的通信,這導(dǎo)致它中間的失敗率會(huì)比GPU還要更高一些。它需要保證整個(gè)系統(tǒng)里每張芯片性能大致是一樣的,如果有參差不齊的話,它整個(gè)系統(tǒng)跑起來的效率就不會(huì)有那么的高。但GPU可能就不存在太大這樣的問題。我們都知道GPU有自己閹割的版本,比如H100、A100,所以一旦良率不好的話,它可以往下降級(jí)。但TPU因?yàn)槭嵌ㄖ频男酒?,不是通用的芯片。所以一旦你良率不行的話,這款芯片相當(dāng)于報(bào)廢了。

03 XLA軟件黑盒:如何“榨干”硬件性能

泓君:剛剛說到生產(chǎn)環(huán)節(jié)取決于你訂單的量。Anthropic其實(shí)要采購谷歌100萬顆TPU,也是一個(gè)很大的訂單。所以谷歌TPU現(xiàn)在看來已經(jīng)在“蠶食”TPU的市場份額。

Henry:Anthropic這一個(gè)訂單確實(shí)是挺大,我覺得有很多個(gè)因素:第一,Anthropic和Google是一個(gè)相對(duì)內(nèi)循環(huán),因?yàn)锳nthropic很多投資方也是Google的,它們是深度合作的關(guān)系。第二點(diǎn),我覺得Anthropic工程師的技術(shù)能力非常強(qiáng),所以他們能用TPU來部署他們自己家的模型。我們等會(huì)兒可以詳細(xì)聊一下為什么TPU的部署在一般第三方客戶上那么難。

泓君:所以Anthropic拿下這個(gè)訂單,我覺得也是有很多因素在里面。那我們就順著繼續(xù)講一下Anthropic。它是不是跟谷歌的整個(gè)軟件生態(tài)有關(guān)系?因?yàn)樵赥PU上要搭一層軟件,我聽過Anthropic的很多人最開始是在Google的,所以他們非常了解TPU上這一套軟件生態(tài)部署。

Henry:回答這個(gè)問題之前,我們可以先簡單聊一下XLA。XLA你可以理解成黑盒,也可以理解成是一個(gè)Google的秘密武器。我覺得XLA和CUDA最大的區(qū)別在于,XLA是一個(gè)靜態(tài)的編譯器。靜態(tài)編譯器指的就是,當(dāng)你的任務(wù)負(fù)載是已知的或者給定的話,它可以在一個(gè)全局的TPU Pod,把它做一個(gè)系統(tǒng)級(jí)的全局的優(yōu)化。

優(yōu)化分很多層面,我知道的,他們會(huì)做很多內(nèi)部的算子融合,比如說你一個(gè)kernel里面有很多計(jì)算,你還會(huì)把一些計(jì)算合并到一個(gè)計(jì)算單元、一個(gè)算子,這樣的話你能更好地去利用systolic array(脈動(dòng)陣列)里面的矩陣計(jì)算的利用率。中間的結(jié)果你不用反復(fù)地存進(jìn)內(nèi)存再存出來,XLA會(huì)幫你自動(dòng)做這樣的優(yōu)化。它還會(huì)做很多的內(nèi)存管理,怎么去更好地分布你的內(nèi)存,它知道TPU喜歡怎么從內(nèi)存里面把數(shù)給讀出來。這些東西都是跟硬件架構(gòu)和一些具體的細(xì)節(jié)是相輔相成的。所以XLA會(huì)通過黑盒幫你去優(yōu)化這樣的一件事情。但問題就是,這個(gè)事情你是沒辦法很好地debug和控制的。

泓君:開發(fā)者很難去用XLA這套系統(tǒng),一個(gè)原因是編程語言他們不會(huì)對(duì)吧?它用的是什么編程語言?

Henry:XLA它是一個(gè)編譯器,它上層是PyTorch、JAX和TensorFlow。相當(dāng)于你的開發(fā)者可以寫任何一樣的語言,然后它通過XLA可以幫你轉(zhuǎn)化成TPU的Assembly code(匯編代碼),就是TPU的指令。它中間是做一個(gè)翻譯加優(yōu)化。所以它如果對(duì)應(yīng)英偉達(dá)的話,對(duì)應(yīng)的就是CUDA的整個(gè)生態(tài)體系。

泓君:我們知道在GPU去訓(xùn)練模型的過程中,工程師經(jīng)常會(huì)遇到bug,然后解決它需要在它軟件的編譯器上,比如說CUDA的生態(tài)上,去看看是哪個(gè)環(huán)節(jié)出了問題?,F(xiàn)在如果是用谷歌的TPU出了問題,剛剛你也提到了XLA是一個(gè)黑盒,那是必須找谷歌的工程師來解決,還是他們自己就可以解決?

Henry:你可以理解成XLA是黑盒,但是它里面有很多的幫助你去debug的一些工具和功能。但它問題就是,你需要對(duì)硬件有一些了解才能更好地去分析它。它是可以debug的,但對(duì)工程師要求會(huì)更高一些。外部的開發(fā)者很難獨(dú)立去處理一個(gè)或修補(bǔ)一個(gè)bug,不像CUDA有一個(gè)很好的生態(tài)你可以去處理。

我們有很多軟件組專門去對(duì)接不同的外部客戶,有Apple、有Midjourney,然后Anthropic,我離職之前也聽說,他們很多組是非常忙的。

泓君:是的,我昨天聽說,用谷歌的TPU最大的團(tuán)隊(duì)其實(shí)不是Anthropic,最大的團(tuán)隊(duì)其實(shí)是蘋果。蘋果是因?yàn)辇嬋裘髦霸贕oogle,他去蘋果的時(shí)候,把谷歌的一整套帶過去了,然后又直接用的TPU去訓(xùn)練他們的大模型。

Henry:對(duì),我覺得也牽扯到一個(gè)軟件棧的遷移。就是你要用TPU的話,必須要把原來的一套軟件棧全部遷移到JAX、XLA上。如果你不遷移的話,你當(dāng)然可以去做,它能跑,但你就利用不到TPU那么好的性能和TCO。現(xiàn)在目前TPU相比GPU,它最大的優(yōu)勢就是它成本控制得很好,相比起芯片,它更多是依賴于軟件。

04 定制芯片痛點(diǎn):Transformer先發(fā)優(yōu)勢能持續(xù)多久?

泓君:你覺得Google的Gemini模型,因?yàn)樗F(xiàn)在應(yīng)該是市場上最好的模型,它的訓(xùn)練出來跟TPU的關(guān)系有多大?能占決定性因素嗎?還是算法是占決定性因素的一部分?

Henry:算法當(dāng)然很重要,因?yàn)槲矣X得現(xiàn)在,特別是預(yù)訓(xùn)練,它CapEx很大。然后它算法我覺得,DeepMind那邊有非常前沿的算法。TPU能幫你去做的一件事情是,當(dāng)你有一個(gè)很好的算法之后,你提前跟TPU組溝通好,我是怎么樣的一個(gè)算法,我怎么樣的任務(wù)負(fù)載,我給你去定制這樣的一個(gè)加速器。這樣的話我能幫助你在一個(gè)更短的時(shí)間更快地迭代,去測試這樣一套算法。我覺得這是一個(gè)很重要的事情。如果說你的訓(xùn)練效率很差的話,你需要花更長周期去驗(yàn)證一套算法是否能work。但TPU如果能把你的時(shí)間打下來,之后迭代速度你就會(huì)更快一些。

泓君:你們定制這樣的一個(gè)芯片大概要多久流程?

Henry:我覺得這是任何芯片公司的一個(gè)痛點(diǎn)。它們很多的時(shí)候都是在預(yù)測未來市場的變化,包括預(yù)測未來模型的變化。之前知道的就是MoE(混合專家模型),也是很早就有這樣的一個(gè)想法。MoE很長一段時(shí)間在TPU和GPU上跑的效果都不是特別好,但是后來TPU和軟件一起增加了針對(duì)MoE的優(yōu)化。

泓君:可以詳細(xì)介紹一下為什么之前MoE一直在TPU上跑不起來的原因?

Henry:因?yàn)樗且粋€(gè)2D torus。相當(dāng)于每個(gè)TPU芯片只能跟它的鄰居、相鄰TPU芯片做通信。所以如果說你沒有一個(gè)All-to-All的通信的話,這樣中間就相當(dāng)于你要找一個(gè)朋友,中間要經(jīng)過很多個(gè)環(huán)節(jié)。這樣的話有很多的浪費(fèi),很多的擁堵。

后來在V4的時(shí)候,TPU推出了一個(gè)3D torus,它用了OCS(光交換機(jī)),相當(dāng)于這是一個(gè)軟件可編程配置的交換機(jī)。你在一個(gè)TPU Pod節(jié)點(diǎn),可以通過軟件來更改你想通信的那個(gè)TPU集群的路徑,這樣的話就相當(dāng)于一下子把MoE的痛點(diǎn)給解決了。之后MoE就在TPU上跑起來,效率就會(huì)明顯比之前高很多。

近萬個(gè)TPU與ICI連接在一個(gè)Pod中 圖片來源:Google Cloud

泓君:所以我理解這個(gè)迭代是以年來計(jì)算的。量產(chǎn)的節(jié)奏一般是多久?半年打得下來嗎?

Henry:打不下來,我覺得每家公司的理念都不一樣,TPU一直要做旗艦的訓(xùn)練芯片或旗艦推理芯片,這對(duì)快速迭代要求會(huì)非常高,因?yàn)槟忝恳淮酒紩?huì)塞很多樣的需求。當(dāng)你設(shè)計(jì)完,我們會(huì)做驗(yàn)證,然后再交給Broadcom去做通信上面的設(shè)計(jì),然后在整個(gè)package level做驗(yàn)證,最后交給TSMC。我覺得整個(gè)流程最快也要兩年到兩年半、三年。

泓君:你剛剛提到谷歌已經(jīng)更新到V8了,這一款我理解它在設(shè)計(jì)上是兩年以前就做了。但是模型的更新,基本上每6個(gè)月就變化一次。也就是說,你要在兩年前去預(yù)測這個(gè)模型往哪個(gè)方向走。押對(duì)了嗎?

Henry:目前來講,V7應(yīng)該是押對(duì)了。這也可以解釋一下為什么之前TPU的芯片和GPU在紙面參數(shù)上是有挺大的距離的。因?yàn)橹癟PU主要的任務(wù)負(fù)載是內(nèi)部的一些推薦和排序算法,它沒有想到GPT出來之后,有這么大的算力需求,是完全不一樣的任務(wù)負(fù)載。

泓君:開始把它所有的核心性能往大模型的預(yù)訓(xùn)練上調(diào)是哪一代?

Henry:應(yīng)該就是V6開始的。V6開始做了兩個(gè)版本,一個(gè)是專門做訓(xùn)練,一個(gè)專門做推理。訓(xùn)練和推理本質(zhì)上它們用的是同一套架構(gòu),推理可以理解成是訓(xùn)練芯片的一條子集,它可以有更小的運(yùn)算單元,它可以有更小的內(nèi)存,因?yàn)橄啾扔?xùn)練,推理不需要做Back Propagation(反向傳播),所以它中間不需要存儲(chǔ)很多的副本。

泓君:差不多也是在兩三年以前開始調(diào)整這個(gè)方向的。其實(shí)GPT在2020年就有GPT-3放出來。谷歌那個(gè)時(shí)候它已經(jīng)開始意識(shí)到這是一個(gè)next big thing,它有去做芯片上的調(diào)整或者GPU上的調(diào)整嗎?

Henry:對(duì),因?yàn)門ransformer也是Google提出來的,然后根據(jù)這套架構(gòu),芯片組很早就知道,如何去做這一套架構(gòu)的優(yōu)化,包括Attention kernel。

泓君:我覺得谷歌的TPU到現(xiàn)在它能在整個(gè)模型預(yù)訓(xùn)練中性能表現(xiàn)非常的優(yōu)秀,也是因?yàn)門ransformer這套架構(gòu)是谷歌發(fā)明的。然后從TPU的誕生開始,它就一直走的是這條路徑。所以我們其實(shí)也可以把TPU理解成一個(gè)針對(duì)于大模型預(yù)訓(xùn)練或者推理的ASIC,這樣說是對(duì)的吧?然后你這個(gè)ASIC就一定要押對(duì)方向,它押到了Transformer。

Henry:對(duì)。我們相當(dāng)于是一個(gè)先發(fā)的優(yōu)勢。本質(zhì)上ASIC和GPU,一個(gè)是通用性好,一個(gè)是通用性不好。一旦有個(gè)新的算法上的動(dòng)態(tài)改變,你在TPU上就很難去實(shí)現(xiàn)這樣一件事情。即使你有先發(fā)優(yōu)勢,但后面的競爭會(huì)越來越激烈。這樣的話,你的先發(fā)優(yōu)勢可能也會(huì)慢慢被蠶食。

所以說GPU勝就勝在它——因?yàn)楝F(xiàn)在模型迭代周期非常短,都是以月來做單位。我覺得有一個(gè)階段就是GPU,因?yàn)樗ㄓ眯院?,所以GPU上去跑模型的迭代速度會(huì)比TPU更快一些。

泓君:那現(xiàn)在是哪個(gè)階段?TPU更快?

Henry:目前V7感覺跟GPU Blackwell已經(jīng)是旗鼓相當(dāng)了。但是我擔(dān)憂的一點(diǎn)就是,這一套架構(gòu)它的可擴(kuò)展性到底有多強(qiáng),萬一將來有一個(gè)不同的范式,它怎么去跟上GPU的步伐。

一塊Ironwood板卡 圖片來源:Google Cloud

泓君:如果出現(xiàn)了類似于不同于Transformer的新的架構(gòu),那TPU就不一定有GPU的表現(xiàn)好。

Henry:是。

泓君:RL(強(qiáng)化學(xué)習(xí))對(duì)TPU的影響會(huì)大嗎?

Henry:肯定會(huì)是不一樣的任務(wù)負(fù)載,肯定是會(huì)有影響的。我覺得現(xiàn)在TPU的策略就是把芯片變得更加通用,往這樣一個(gè)方向去發(fā)展。相當(dāng)于它矩陣單元可以處理各種任務(wù)負(fù)載的矩陣計(jì)算,它也有專門負(fù)責(zé)去處理一些稀疏矩陣計(jì)算的單元。它可以理解成把很多硬件上的一些計(jì)算和內(nèi)存模塊化,來適應(yīng)將來不同的范式。

泓君:所以從某種意義上來講,也是一個(gè)向通用性的妥協(xié)。

Henry:對(duì),我覺得之前以往幾代芯片可能設(shè)計(jì)得沒有那么激進(jìn)的原因也是有一部分的考量。如果一旦設(shè)計(jì)得非常激進(jìn),你可以在Gemini上模型效率提升30%到40%,但萬一有變化呢?萬一有變化,那回去的話就會(huì)非常的痛苦。所以我覺得這是一種基于現(xiàn)實(shí)的妥協(xié)。

05 供應(yīng)鏈命門:博通為何關(guān)鍵?

泓君:我最近是看到一條新聞,說Google跟Meta也有一個(gè)這樣的TPU采購協(xié)議,然后谷歌向Meta提供TPU的托管服務(wù)。

Henry:我覺得它可能更多是依托于谷歌云,提供更多算力。軟件側(cè)的話,我離職之前也知道有很多組在做PyTorch和XLA的結(jié)合,但因?yàn)镻yTorch算子實(shí)在太多了,如果不在硬件上原生地去支持這些算子的話,性能表現(xiàn)就會(huì)比較差一些。如果直接用谷歌云的話,你相當(dāng)于是托管了,沒辦法做很多底層的控制,性能就會(huì)有浪費(fèi)。

泓君:這個(gè)浪費(fèi)大概會(huì)在多少的百分比?

Henry:這就是我剛才說到模型利用率。如果你結(jié)合得非常好的話,能幾乎滿狀態(tài)地達(dá)到一個(gè)峰值FLOPs或峰值內(nèi)存帶寬。但是如果你用谷歌云來跑的話,你很有可能用到只有50%到60%的利用率,但是你還是要付同樣的錢。目前我知道,直接購買TPU機(jī)架的只有Anthropic,其他都還是谷歌云。

泓君:我注意到谷歌API接口的成本大概最開始只有Open AI跟Anthropic的十分之一。同時(shí),Anthropic最近的Claude Opus 4.5,它的API接口大概是下降了67%。有媒體報(bào)道把這部分歸功于它是用谷歌的TPU訓(xùn)練的。

Henry:推理成本上確實(shí)是這樣的。Google現(xiàn)在的推理芯片成本確實(shí)會(huì)比GPU要高不少,原因就是集群的推理,它的TCO就能打得下來。還有一個(gè)原因剛才沒有提到——GPU的集群它用的是NVLink、NVSwitch這樣的一種通信協(xié)議,這其實(shí)很燒錢,你可以理解成是一種基礎(chǔ)設(shè)施稅。你需要跟很多不同廠商去買這種交換機(jī),然后部署在你的數(shù)據(jù)中心當(dāng)中,這是一個(gè)很大的成本開支。Google因?yàn)樗昧瞬灰粯拥耐負(fù)浼軜?gòu),它用了芯片與芯片之間直接通信,它用的是銅,不用交換機(jī),只有在某些節(jié)點(diǎn)上用一些光學(xué)交換機(jī),但也比較少,實(shí)現(xiàn)了同樣的通信效果。所以它在成本支出上會(huì)比GPU要好很多。

泓君:所以在建數(shù)據(jù)中心的這一環(huán),成本已經(jīng)拉開了。英偉達(dá)的主要成本是交換機(jī),谷歌的主要成本是什么?是液冷嗎?

Henry:液冷是一塊。其實(shí)跟英偉達(dá)也差不太多。主要成本也是它的一些SerDes(串行器/解串器),這種SerDes就相當(dāng)于是把信號(hào)從一個(gè)芯片準(zhǔn)確無誤地傳輸?shù)搅硗庖粋€(gè)芯片。因?yàn)橄啾菺PU,TPU更多依賴于SerDes的穩(wěn)定性,所以這一塊資本支出還是很高的。

TPU的液冷設(shè)備 圖片來源:Google Cloud

泓君:谷歌跟Broadcom的合作會(huì)持續(xù)多久?是不是如果量大了,谷歌可能就自己做了?

Henry:Broadcom好處就是它可以幫最大的客戶去爭取最大的產(chǎn)能,就是CoWoS和TSMC。所以說一直以來,TPU都是跟Broadcom去做這樣一個(gè)合作,目前我不覺得會(huì)有很大的改變。但這樣導(dǎo)致一個(gè)不好的問題就是,Broadcom的議價(jià)權(quán)會(huì)越來越大。如果非常依賴Broadcom,沒有一個(gè)備選的話,你在成本上就很難控制得下來。

泓君:所以谷歌它能直接跟CoWoS這一塊來議價(jià)嗎?決定的核心要素是什么?

Henry:主要還是HBM。我理解Broadcom是一個(gè)中間的環(huán)節(jié),它會(huì)把所有的東西全部幫你鋪設(shè)好,然后交給TSMC去量產(chǎn)。所以我覺得,第一你需要去拿到一個(gè)很好的HBM的產(chǎn)能,再通過Broadcom去跟TSMC爭取一個(gè)好的CoWoS。

泓君:我聽說現(xiàn)在整個(gè)HBM的產(chǎn)能被英偉達(dá)壟斷了。

Henry:基本上是壟斷了。因?yàn)閯偛乓蔡岬剑?strong>現(xiàn)在我們已經(jīng)慢慢從計(jì)算密集型轉(zhuǎn)向內(nèi)存密集型,特別是像現(xiàn)在的Attention kernel,核心就是一個(gè)你怎么樣去更快的從內(nèi)存里把數(shù)據(jù)給搬運(yùn)出來。未來幾年的方向可能就是HBM能決定你的上限。如果你買不到好的HBM的話,那你的訓(xùn)練效率就會(huì)大打折扣。

泓君:所以博通的主要核心作用是在這一塊?

Henry:博通主要的核心作用是做很多的通信ICI(Inter chip interconnect)。我們TPU團(tuán)隊(duì)主要設(shè)計(jì)它的前端。我們相當(dāng)于是把一張圖紙給打印出來,然后Broadcom會(huì)把每個(gè)芯片之間物理上去連接起來,去布局這樣一個(gè)拓?fù)涞木W(wǎng)絡(luò)。你可以理解成臟活累活,也可以理解成這是一個(gè)非常吃經(jīng)驗(yàn)的,也是技術(shù)壁壘非常高的核心環(huán)節(jié)。

06 TPU十年進(jìn)化史

泓君:如果我們用一句話來總結(jié),你覺得現(xiàn)在谷歌的TPU可以挑戰(zhàn)英偉達(dá)的在GPU的壟斷地位嗎?或者說至少是我去阻撓一下英偉達(dá)在這個(gè)市場上絕對(duì)的定價(jià)權(quán)?

Henry:沒有絕對(duì)答案,但我的結(jié)論是,在某些限定的條件下,TPU是完全可以挑戰(zhàn)GPU的。限定條件就是大規(guī)模部署。因?yàn)門PU它主打就是走量。TPU其實(shí)不太擅長做一件事情就是,它沒辦法針對(duì)一個(gè)單用戶,比如說做Agent,它就不太適合,因?yàn)樗舆t會(huì)比較高一些。它必須在一個(gè)非常大的吞吐量下,比如有很多用戶同時(shí)去調(diào)用這個(gè)接口,才能把成本分?jǐn)傞_來。如果在大規(guī)模部署、模型相對(duì)比較穩(wěn)定,不需要很多的變動(dòng)的情況下,它的整體的成本就會(huì)相比GPU有很大的優(yōu)勢。

泓君:綜上我們所說的,我試著總結(jié)一下TPU跟GPU的優(yōu)勢跟劣勢。

整體來看,現(xiàn)在TPU在性能上,包括在模型的訓(xùn)練上,如果你用得好的話是可以把它跑滿的,它可能會(huì)達(dá)到GPU的性能甚至是比它跑得更好。在數(shù)據(jù)中心的部署上,它是更省成本的,這個(gè)是它的一些核心優(yōu)勢。同時(shí),用了它你的推理成本可以降低。

它的缺點(diǎn)就是,首先我們?cè)谲浖纳鷳B(tài)上,XLA還是一個(gè)比較難入門的核心門檻,它沒有英偉達(dá)CUDA生態(tài)。另外一點(diǎn),它在整個(gè)的起量上,包括對(duì)HBM供應(yīng)鏈的控制上,還是比較弱的。還有一個(gè)核心的問題就是說,如果大家使用了TPU,但是你內(nèi)部沒有特別懂的人,它還是一個(gè)黑盒,就是你沒有辦法用自己的工程師去把它調(diào)優(yōu),然后把它的性能跑滿。如果用谷歌云的話,可能只能跑到50%到60%的性能。

在這種情況下,它跟GPU誰的性能更好,現(xiàn)在其實(shí)也是一個(gè)很難說的話題。所以整體上我們看到是這樣的一個(gè)趨勢。TPU最大的核心問題就是說,未來如果整個(gè)模型在架構(gòu)跟算法上有升級(jí),它類似于一款專用的ASIC芯片,通用的GPU是更有優(yōu)勢的。但是如果你們的算法賭對(duì)了,你們就是有核心優(yōu)勢的。我的總結(jié)準(zhǔn)確嗎?

Henry:非常精確。

泓君:其實(shí)我們前面聊了這么多的TPU,你要不要跟大家再簡單地回溯一下,谷歌是怎么樣去發(fā)明TPU的?它的歷史是什么?然后誰是中間的核心人物?

Henry:我們最開始TPU主要是針對(duì)內(nèi)部CNN這個(gè)大模型的一個(gè)加速器。最開始第一代芯片只是一款推理芯片。最開始的初衷就是大家發(fā)現(xiàn),我們內(nèi)部有很多線上推薦系統(tǒng),但它的推理都是用CPU來做推理。大家都知道CPU的并行效果是非常差的。那時(shí)候也沒法用GPU,因?yàn)槟菚r(shí)的GPU還沒有加入矩陣計(jì)算單元。谷歌說為什么我們不自己開發(fā)一款只做矩陣計(jì)算的模型。所以這就是最開始的初衷。Jeff Dean,包括后來圖靈獎(jiǎng)的獲得者David Patterson深度參與了第一代模型的架構(gòu)。

第二代芯片,就是一個(gè)非常旗艦的做訓(xùn)練的模型,包括我們后來知道的AlphaGo、PaLM、Bard、早期的Early Transformer,包括后來Transformer,都是用了這一套架構(gòu)去做的訓(xùn)練。但那時(shí)候有一個(gè)比較大的問題就是,先有了硬件,但是軟件還沒有跟上來,那個(gè)協(xié)同效應(yīng)還沒有產(chǎn)生。中間我們也提出了系統(tǒng)級(jí)的TPU Pod,一個(gè)拓?fù)涞木W(wǎng)絡(luò),這也是奠定了現(xiàn)在TPU能有出色性能的基礎(chǔ)。

在這期間我們又針對(duì)推薦和排序的算法加入了一個(gè)Sparse Core(稀疏式的計(jì)算單元),這也很好地解決谷歌內(nèi)部的推薦的一些任務(wù)負(fù)載。

然后V5、V6的話就是開始進(jìn)入大模型時(shí)代了,所以我們那時(shí)候針對(duì)Transformer做很多的優(yōu)化,中間還推出了一個(gè)推理的版本,因?yàn)橥评硎袌鲂枨蠓浅4蟆?/p>

泓君:TPU剛剛誕生的時(shí)候,還有一些特別好玩的故事。當(dāng)時(shí)Jeff Dean是谷歌的首席科學(xué)家,2013年左右他是在一次內(nèi)部的演示中,講深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)怎么樣去在語音識(shí)別上有一個(gè)突破性的進(jìn)展,那個(gè)時(shí)候大家就發(fā)現(xiàn),我們需要的是GPU,而不是CPU。

后來他們就開始在內(nèi)部去Demo這個(gè)事情。然后Jonathan Ross,現(xiàn)在已經(jīng)是英偉達(dá)的首席軟件架構(gòu)師了,因?yàn)橛ミ_(dá)收編了Groq,他當(dāng)時(shí)內(nèi)部演示的時(shí)候就放了兩頁P(yáng)PT。第一頁是,好消息:這個(gè)GPU真的是工作了。第二頁就是,壞消息:我們付不起這個(gè)錢。如果所有的用戶他們給谷歌發(fā)三分鐘的語音的話,那么當(dāng)時(shí)谷歌整個(gè)數(shù)據(jù)中心的成本會(huì)增加一倍,大概是數(shù)百億美元,是非常大的一個(gè)量。這個(gè)其實(shí)也是他們開始去研究TPU的一個(gè)起點(diǎn)。接下來的故事就是AlphaGo擊敗圍棋冠軍李世石的時(shí)候,谷歌已經(jīng)在用TPU了,而且據(jù)說在他們的AI算法里面是放了四張TPU。

07 新星Groq:踩準(zhǔn)每一次紅利的編譯器公司

泓君:剛剛提到了Jonathan Ross,我們要不要講一下Groq?因?yàn)橛ミ_(dá)也是把它收購了。然后它在推理芯片端,我記得它最開始出來的時(shí)候,它的整個(gè)性能表現(xiàn),包括它說的那些方案,在業(yè)界還是讓很多人動(dòng)心。

Henry:對(duì),我覺得我當(dāng)初也跟他們內(nèi)部團(tuán)隊(duì)人聊過。目前他們被英偉達(dá)收購,是踩準(zhǔn)了每一個(gè)時(shí)代的紅利,踩準(zhǔn)了每一個(gè)很好的時(shí)間點(diǎn)。第一個(gè)時(shí)間點(diǎn)就是推理,第二個(gè)時(shí)間點(diǎn)是ASIC,第三個(gè)時(shí)間點(diǎn)就是今年是Agent元年,有很多智能體的爆發(fā)。Groq最好的一個(gè)應(yīng)用場景就是Agent,智能體。因?yàn)锳gent智能體它對(duì)延遲的要求是非常高的,如果說你的延遲做得很差的話,整個(gè)幫你去做這個(gè)任務(wù)的鏈條就會(huì)被拉到無限長,對(duì)于單用戶來講是非常痛苦的一件事情。所以Groq能很好地去解決或者說解決這樣的一個(gè)問題。

Groq的芯片,因?yàn)镴onathan Ross最開始是TPU的編譯器團(tuán)隊(duì),是TPU compiler那邊的一個(gè)類似于創(chuàng)始人。相當(dāng)于他是帶了一套非常成熟的TPU的編譯器XLA的經(jīng)驗(yàn)去創(chuàng)立了Groq。所以Groq你可以理解成它是一家編譯器的公司,而不是一家芯片公司。因?yàn)樗男酒嗍菫樗能浖幾g器服務(wù)的。它的硬件可能比TPU更加單一,或者說沒那么的智能一些。編譯器在某種程度上決定了一切。它LPU里面每個(gè)時(shí)間點(diǎn),每個(gè)計(jì)算單元里面去做哪些事情,它可以精準(zhǔn)到每一個(gè)cycle,都是用編譯器去確定好的。一個(gè)確定性非常高的事情。

Groq LPU 圖片來源:Groq

泓君:你剛剛提到他們精準(zhǔn)地踩到了每一個(gè)時(shí)代的紅利點(diǎn)。第一輪是推理,第二輪是ASIC,第三輪是Agent。這三個(gè)時(shí)間點(diǎn)對(duì)芯片的要求有什么不一樣嗎?

Henry:Groq最開始就主做推理,它不做訓(xùn)練,它軟件和硬件的架構(gòu)決定了它做不了訓(xùn)練。第二個(gè)ASIC的話,相當(dāng)于它的成本更加可控一些。

泓君:它是針對(duì)哪個(gè)方向的ASIC?

Henry:它是針對(duì)低延遲的ASIC,主要是做低延遲。

泓君:所以現(xiàn)在Agent,我可以理解,比如說現(xiàn)在我們用Agent覺得延遲很低了,它還是有硬件層面的提升的。

Henry:對(duì)。谷歌的TCO好的原因,就是有海量客戶同時(shí)去用這樣一個(gè)推理服務(wù),它的吞吐量就會(huì)很高,但它不在乎尾部延遲。尾部延遲指的就是單用戶用的話,它可能會(huì)有時(shí)候會(huì)快,有時(shí)候會(huì)慢一點(diǎn),相信大家也都會(huì)有這樣的體驗(yàn)。但是Groq,你一旦去用的話,它就會(huì)非常非??臁K脑淼谝皇撬腟RAM靜態(tài)隨機(jī)存取存儲(chǔ)器。第二,它是一個(gè)相當(dāng)于你一個(gè)人占用了非常多的LPU資源,而不是跟很多人去共享。

泓君:它踩上的Agent紅利是什么?

Henry:適合Groq去服務(wù)的場景,第一個(gè)是Agent,第二個(gè)是實(shí)時(shí)語音,還有一些高頻的交易,這些場景對(duì)延遲要求會(huì)更高一些。我覺得它就是主打一個(gè)市場的差異化?,F(xiàn)在主流的市場都是做這種大模型的推理和訓(xùn)練,它可能就是針對(duì)一些小規(guī)模部署的計(jì)算集群做這樣的一個(gè)低延遲的性能優(yōu)化。

泓君:你覺得未來在整個(gè)Agent的應(yīng)用中,推理芯片它會(huì)是一個(gè)百花齊放的格局,還是說它依然是英偉達(dá)的GPU為主導(dǎo)的?

Henry:我覺得自從去年Deepseek出來之后,大家一下子發(fā)現(xiàn)如果你成本打下來之后,推理的需求是非常大的,會(huì)有很多不同層次的市場。當(dāng)然Google和TPU肯定會(huì)占據(jù)最高層,就是最大規(guī)模那些部署的,包括云、包括那些大模型的推理。中間和下面的一層,我覺得會(huì)有更多的玩家,更多的參與者進(jìn)來。

泓君:所以未來整個(gè)芯片市場在推理端也會(huì)分層,然后分應(yīng)用場景。

Henry:對(duì)。最大量的需求還是這些大的巨頭。你沒辦法說我要做下一家英偉達(dá),你基本上做不到,因?yàn)樗o(hù)城河實(shí)在太深了。你要是做初創(chuàng)公司的話,只能做一些尾端的客戶。

很多人都在討論TPU和GPU之間區(qū)別、孰優(yōu)孰劣,但我覺得未來肯定是兩者并存的。包括所有很多大廠都在自研自己家的芯片,不管是推理還是訓(xùn)練。我覺得你不能說GPU將來會(huì)一統(tǒng)江山或TPU會(huì)一統(tǒng)江山,我覺得這個(gè)生態(tài)是一個(gè)非常健康的生態(tài)。有定制的環(huán)節(jié),也有通用的環(huán)節(jié),有通用的場景,也有定制的場景,也有垂類的場景。所以我覺得將來是百花齊放的一個(gè)格局。所以一旦產(chǎn)能、各方面供應(yīng)鏈都解決問題之后,我覺得對(duì)用戶來講都是件好事情,一下子把成本降下來之后,你能做的事情就有無限的可能。

本文系作者 硅谷101 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

12:10

安踏:2025年?duì)I收802.2億元人民幣,同比增長13.3%

12:02

港股午評(píng):恒生指數(shù)漲0.04%,恒生科技指數(shù)跌0.48%

11:56

金飾克價(jià)重回1400元,一夜大漲近70元

11:42

港元1周期銀行同業(yè)拆息創(chuàng)下去年12月以來最大上漲

11:41

2025年北京人均GDP為3.3萬美元

11:40

官方回應(yīng)張雪峰醫(yī)療文件疑遭泄露:已關(guān)注到此事并在處理

11:37

伊朗喊話美國:別把失敗說成協(xié)議

11:37

A股午評(píng):滬指半日漲0.88%重回3900點(diǎn)上方,算力租賃、CPO、貴金屬等多個(gè)板塊上揚(yáng)

11:35

河南擬發(fā)行547.43億元地方債

11:33

國債期貨早盤收盤普漲

11:28

港股震蕩回落,恒生科技指數(shù)轉(zhuǎn)跌

11:27

交行回應(yīng)擬申請(qǐng)撤銷私行專營牌照:現(xiàn)有私人銀行業(yè)務(wù)服務(wù)、權(quán)益、流程等均不受影響

11:20

英偉達(dá)CEO黃仁勛:AGI時(shí)代已經(jīng)到來 “龍蝦開公司”不是夢

11:12

伊朗被曝拒絕與威特科夫和庫什納談判

11:07

2025年度“中國科學(xué)十大進(jìn)展”發(fā)布

10:58

綠電概念漲勢擴(kuò)大,華電能源等十余股漲停

10:50

阿里云宣布全面開放JVS Claw

10:40

旅游概念異動(dòng)拉升,桂林旅游漲停

10:35

阿斯麥裁員計(jì)劃引發(fā)抗議,超1000名員工參與罷工

10:29

阿里速賣通與奧地利郵政達(dá)成新一輪戰(zhàn)略合作

掃描下載App