人人干超碰在线欧美精品区,久久久人人人人操婷婷视频,激情亚洲色图在线色91

本期硅谷101以視頻播客的形式錄制，主播泓君邀請(qǐng)到前谷歌TPU工程師Henry。他在2018年至2024年間深度參與了三代TPU的研發(fā)，也見證了大模型時(shí)代TPU的關(guān)鍵轉(zhuǎn)型。他將從硬件架構(gòu)、軟件生態(tài)、生產(chǎn)供應(yīng)鏈博弈三個(gè)維度，一層層揭開TPU的神秘面紗。

TPU與GPU有著完全不同的設(shè)計(jì)哲學(xué)。Henry用“流水線”與“大廚們”來比喻兩者的架構(gòu)差異：GPU起源于圖形處理，采用SIMT架構(gòu)，如同一個(gè)廚房里擁有眾多獨(dú)立思考的大廚，可以并行處理多種任務(wù)。而TPU是專為機(jī)器學(xué)習(xí)矩陣計(jì)算定制的加速器，通過芯片間互聯(lián)（ICI）構(gòu)建起3D Torus網(wǎng)絡(luò)，讓數(shù)千張芯片在用戶感知中如同一張芯片般協(xié)同工作。

他認(rèn)為TPU挑戰(zhàn)GPU的機(jī)會(huì)在于——在軟硬件深度協(xié)同下，TPU能夠在已知任務(wù)負(fù)載時(shí)，對(duì)整顆TPU Pod進(jìn)行全局算子融合與內(nèi)存管理優(yōu)化，將硬件性能“榨干”到極致。這種設(shè)計(jì)使得TPU在模型相對(duì)穩(wěn)定、需要大規(guī)模部署的場景中，能夠?qū)崿F(xiàn)比GPU更低的推理成本。

01 TPU v.s GPU架構(gòu)對(duì)決：誰更省錢？誰更強(qiáng)？

泓君：很多人不清楚TPU跟英偉達(dá)的GPU，有什么樣的不一樣。我們可以先簡單給聽眾介紹一下。

Henry：首先TPU和GPU本身的架構(gòu)是完全不一樣的。GPU大家可能了解更加多一些，因?yàn)樽铋_始它是做游戲的顯卡，它是一個(gè)SIMT的架構(gòu)（Single Instruction Multiple Threading），它是一個(gè)多線程單一指令的架構(gòu)，可以理解成一個(gè)廚房里面同時(shí)安排著很多很多個(gè)大廚，他們每個(gè)人都有獨(dú)立的思考能力。所以你安排很多很多大廚的話，這樣并行計(jì)算能力就會(huì)非常非常強(qiáng)。

泓君：如果我們同樣用做菜來比喻TPU的話，你覺得它的流程跟GPU有什么不一樣？

Henry：TPU和GPU最大的區(qū)別就是，TPU是一個(gè)針對(duì)機(jī)器學(xué)習(xí)的加速器。我們知道，機(jī)器學(xué)習(xí)任何的算法，里面的核心就是矩陣計(jì)算，包括最開始的CNN（卷積神經(jīng)網(wǎng)絡(luò)），到現(xiàn)在的Attention，到Transformer，到未來的架構(gòu)。矩陣計(jì)算這個(gè)東西是非常Compute Bound（計(jì)算密集型）。TPU就是針對(duì)這個(gè)矩陣計(jì)算專門做了一個(gè)定制的加速器。用做飯來比喻，TPU是一個(gè)流水線，不用安排那么多的大廚，它會(huì)把每一個(gè)步驟都告訴你具體做什么，比如說第一個(gè)人會(huì)從冰箱里把菜給取出來給第二個(gè)人，第二個(gè)人繼續(xù)做加工傳到第三個(gè)人。你可以理解成是心臟的泵血，每泵一次，它就會(huì)把血液傳輸?shù)侥闵眢w的各個(gè)角落。所以這樣的話，中間它會(huì)少很多的調(diào)度和調(diào)控，所以能保證每一個(gè)計(jì)算單元的使用率會(huì)更高一些。

泓君：在模型的訓(xùn)練上，這兩種不同的架構(gòu)各自的優(yōu)勢跟缺點(diǎn)是什么？

Henry：我覺得現(xiàn)在預(yù)訓(xùn)練，包括后面的推理，我們?cè)诼貜腃ompute Bound（計(jì)算密集型）變成Memory Bound（訪存密集型），所以我們現(xiàn)在對(duì)內(nèi)存的要求是非常高的。SIMT架構(gòu)有一個(gè)缺陷，因?yàn)槟阈枰?dú)立地去做這樣的計(jì)算任務(wù)，所以在一直等數(shù)據(jù)搬運(yùn)過來的過程中，有時(shí)就會(huì)有一些idle period（空閑周期）。所以這個(gè)過程當(dāng)中就會(huì)導(dǎo)致它的矩陣計(jì)算利用率沒有那么高，utilization rate（產(chǎn)能利用率）就會(huì)有下降。

我覺得TPU彌補(bǔ)了這個(gè)缺點(diǎn)，我們待會(huì)兒可以具體聊一下它軟硬件的協(xié)同效應(yīng)。TPU會(huì)保證它是一個(gè)滿功率下的運(yùn)行，它不需要等待數(shù)據(jù)搬運(yùn)的過程，它要么利用當(dāng)?shù)氐木彺?，把一些提前搬運(yùn)過來的數(shù)據(jù)重復(fù)去利用，要么把帶寬跑滿，這樣我們可以使內(nèi)存利用率能達(dá)到一個(gè)峰值。

泓君：所以用一句話來做結(jié)論，你覺得TPU跟GPU它們?cè)谀Ｐ偷挠?xùn)練上誰更強(qiáng)，能優(yōu)化多少？

Henry：我覺得從預(yù)訓(xùn)練上來講的話，目前GPU和TPU最大的區(qū)別就是——當(dāng)然GPU現(xiàn)在也開始往那個(gè)方向去發(fā)展——因?yàn)門PU一直做系統(tǒng)層面設(shè)計(jì)，它是一個(gè)大的計(jì)算集群，而不是單卡單芯片去做預(yù)訓(xùn)練。GPU可能很長一段時(shí)間都是單張卡的性能非常好，但是它沒有一個(gè)網(wǎng)絡(luò)。TPU一直是主打TPU Pod，它是一個(gè)有幾千張卡的協(xié)同訓(xùn)練的狀態(tài)。它里面牽扯到了很多通信，就是ICI，芯片間互聯(lián)，它芯片與芯片之間通信和網(wǎng)絡(luò)，我們叫做3D Torus，一個(gè)拓?fù)涞木W(wǎng)絡(luò)。它可以讓幾千張卡芯片在用戶的感覺當(dāng)中是一張卡的芯片，它中間訓(xùn)練效率是非常高的，這樣的話它的成本也可以打得下來。

泓君：我看新聞報(bào)道說谷歌V7，就是你研發(fā)的這套Ironwood，它的芯片在物理參數(shù)上已經(jīng)非常接近GB200了。所以它如果在真實(shí)的工作中，比如同樣是訓(xùn)練一個(gè)Gemini的模型，同樣的參數(shù)量，用GPU跟用谷歌的TPU，誰更省錢？

Henry：我覺得這是很好的問題。我的理解是，將來如果說谷歌給其他大模型公司定制的話，我覺得谷歌的性價(jià)比（TCO，Total Cost of Ownership）是更高的。當(dāng)你知道你的任務(wù)負(fù)載（Workload）是什么的時(shí)候，你就可以根據(jù)你的任務(wù)負(fù)載去做一些物理的芯片層面或軟件層面的定制。雖然說它可能有點(diǎn)“黑盒”的感覺，當(dāng)你所有的已知條件都確定下來時(shí)，我覺得TPU在現(xiàn)實(shí)條件下，它的訓(xùn)練效率還是TCO，都會(huì)比GPU更加強(qiáng)大。它的利用率更好的原因，是它的FLOPs（單位時(shí)間內(nèi)做多少次浮點(diǎn)式運(yùn)算），因?yàn)門PU里面主要的架構(gòu)就是矩陣計(jì)算，所以它的軟件和硬件可以保證它每個(gè)時(shí)間、每個(gè)計(jì)算單元都有活在做。

我們的軟件相當(dāng)于幫助硬件說，我不會(huì)讓你閑下來，每個(gè)時(shí)間點(diǎn)你都有工作，但是你具體做什么活，是我告訴你的，你不需要精準(zhǔn)地去預(yù)測或怎么樣。硬件層面說，我們不會(huì)加很多的控制單元。這跟GPU很大的區(qū)別就是，我們不需要任何的預(yù)測，它預(yù)測的那一層面相當(dāng)于都是在軟件層面去實(shí)現(xiàn)的。所以相當(dāng)于你把硬件變得更蠢了一點(diǎn)，相當(dāng)于是一個(gè)機(jī)械式的勞作，軟件那邊幫你把所有復(fù)雜難題都給處理掉。

所以Ironwood主要有兩大進(jìn)步。一個(gè)進(jìn)步就是它把它的峰值FLOPs數(shù)值上跟GPU更加接近了。另外一個(gè)點(diǎn)我覺得非常重要，就是它的內(nèi)存帶寬也是有一個(gè)巨大的提升，它肯定是用了更大的HBM，保證了一定的帶寬。第二點(diǎn)就是這個(gè)HBM的帶寬它能被軟件充分地去利用起來。

02 TPU產(chǎn)能之困 HBM、封裝、良率

泓君：更高性能的HBM，從供應(yīng)鏈的環(huán)節(jié)好找貨嗎？

Henry：非常難找。HBM有點(diǎn)壟斷的感覺，一共就三家公司壟斷這個(gè)生產(chǎn)，應(yīng)該是SK hynix（海力士）、三星和Micron（美光科技）。英偉達(dá)一直是HBM最大客戶，TPU一直相當(dāng)于是一個(gè)次要客戶。之前TPU一直沒有辦法獲得那么好的HBM，或者說那么大的訂單。

谷歌TPU V7之前一直有一個(gè)產(chǎn)能的問題，第一點(diǎn)原因是V7之前我們一直沒有一個(gè)對(duì)外的生態(tài)，更多是針對(duì)內(nèi)部的部署使用，所以我們沒有辦法和Broadcom（博通）、TSMC（臺(tái)積電），或者剛才所說的那幾家HBM廠商去鎖定一個(gè)很大的訂單。

第二點(diǎn)，CoWoS屬于TSMC的核心產(chǎn)能。我們可以理解成，我們新一代的芯片都是跟以前完全不一樣，因?yàn)槲覀儸F(xiàn)在都做一個(gè)co-design，我們的HBM內(nèi)存芯片和計(jì)算芯片是兩塊獨(dú)立的芯片，通過一個(gè)2.5D stacking的封裝把它封裝成一個(gè)集成芯片。這個(gè)TPU Google自己做不了，Broadcom也做不了，它只能依賴于TSMC,所以TSMC給你分配多少產(chǎn)能，你就能達(dá)成多少產(chǎn)能。

泓君：如果把現(xiàn)在產(chǎn)能的瓶頸總結(jié)一下，一塊是CoWoS跟TSMC，在封裝上的產(chǎn)能。還有一塊是HBM，高帶寬的內(nèi)存供應(yīng)，由三大壟斷巨頭去把持。

Henry：還有一點(diǎn)就是良率。良率意味著，當(dāng)你TSMC把一個(gè)wafer die（晶圓晶粒）生產(chǎn)出來之后，它上面這一塊wafer上有多少是合格的芯片。因?yàn)門PU和GPU的制造理念是不太一樣的。TPU主打芯片與芯片之間的通信，這導(dǎo)致它中間的失敗率會(huì)比GPU還要更高一些。它需要保證整個(gè)系統(tǒng)里每張芯片性能大致是一樣的，如果有參差不齊的話，它整個(gè)系統(tǒng)跑起來的效率就不會(huì)有那么的高。但GPU可能就不存在太大這樣的問題。我們都知道GPU有自己閹割的版本，比如H100、A100，所以一旦良率不好的話，它可以往下降級(jí)。但TPU因?yàn)槭嵌ㄖ频男酒?，不是通用的芯片。所以一旦你良率不行的話，這款芯片相當(dāng)于報(bào)廢了。

03 XLA軟件黑盒：如何“榨干”硬件性能

泓君：剛剛說到生產(chǎn)環(huán)節(jié)取決于你訂單的量。Anthropic其實(shí)要采購谷歌100萬顆TPU，也是一個(gè)很大的訂單。所以谷歌TPU現(xiàn)在看來已經(jīng)在“蠶食”TPU的市場份額。

Henry：Anthropic這一個(gè)訂單確實(shí)是挺大，我覺得有很多個(gè)因素：第一，Anthropic和Google是一個(gè)相對(duì)內(nèi)循環(huán)，因?yàn)锳nthropic很多投資方也是Google的，它們是深度合作的關(guān)系。第二點(diǎn)，我覺得Anthropic工程師的技術(shù)能力非常強(qiáng)，所以他們能用TPU來部署他們自己家的模型。我們等會(huì)兒可以詳細(xì)聊一下為什么TPU的部署在一般第三方客戶上那么難。

泓君：所以Anthropic拿下這個(gè)訂單，我覺得也是有很多因素在里面。那我們就順著繼續(xù)講一下Anthropic。它是不是跟谷歌的整個(gè)軟件生態(tài)有關(guān)系？因?yàn)樵赥PU上要搭一層軟件，我聽過Anthropic的很多人最開始是在Google的，所以他們非常了解TPU上這一套軟件生態(tài)部署。

Henry：回答這個(gè)問題之前，我們可以先簡單聊一下XLA。XLA你可以理解成黑盒，也可以理解成是一個(gè)Google的秘密武器。我覺得XLA和CUDA最大的區(qū)別在于，XLA是一個(gè)靜態(tài)的編譯器。靜態(tài)編譯器指的就是，當(dāng)你的任務(wù)負(fù)載是已知的或者給定的話，它可以在一個(gè)全局的TPU Pod，把它做一個(gè)系統(tǒng)級(jí)的全局的優(yōu)化。

優(yōu)化分很多層面，我知道的，他們會(huì)做很多內(nèi)部的算子融合，比如說你一個(gè)kernel里面有很多計(jì)算，你還會(huì)把一些計(jì)算合并到一個(gè)計(jì)算單元、一個(gè)算子，這樣的話你能更好地去利用systolic array（脈動(dòng)陣列）里面的矩陣計(jì)算的利用率。中間的結(jié)果你不用反復(fù)地存進(jìn)內(nèi)存再存出來，XLA會(huì)幫你自動(dòng)做這樣的優(yōu)化。它還會(huì)做很多的內(nèi)存管理，怎么去更好地分布你的內(nèi)存，它知道TPU喜歡怎么從內(nèi)存里面把數(shù)給讀出來。這些東西都是跟硬件架構(gòu)和一些具體的細(xì)節(jié)是相輔相成的。所以XLA會(huì)通過黑盒幫你去優(yōu)化這樣的一件事情。但問題就是，這個(gè)事情你是沒辦法很好地debug和控制的。

泓君：開發(fā)者很難去用XLA這套系統(tǒng)，一個(gè)原因是編程語言他們不會(huì)對(duì)吧？它用的是什么編程語言？

Henry：XLA它是一個(gè)編譯器，它上層是PyTorch、JAX和TensorFlow。相當(dāng)于你的開發(fā)者可以寫任何一樣的語言，然后它通過XLA可以幫你轉(zhuǎn)化成TPU的Assembly code（匯編代碼），就是TPU的指令。它中間是做一個(gè)翻譯加優(yōu)化。所以它如果對(duì)應(yīng)英偉達(dá)的話，對(duì)應(yīng)的就是CUDA的整個(gè)生態(tài)體系。

泓君：我們知道在GPU去訓(xùn)練模型的過程中，工程師經(jīng)常會(huì)遇到bug，然后解決它需要在它軟件的編譯器上，比如說CUDA的生態(tài)上，去看看是哪個(gè)環(huán)節(jié)出了問題?，F(xiàn)在如果是用谷歌的TPU出了問題，剛剛你也提到了XLA是一個(gè)黑盒，那是必須找谷歌的工程師來解決，還是他們自己就可以解決？

Henry：你可以理解成XLA是黑盒，但是它里面有很多的幫助你去debug的一些工具和功能。但它問題就是，你需要對(duì)硬件有一些了解才能更好地去分析它。它是可以debug的，但對(duì)工程師要求會(huì)更高一些。外部的開發(fā)者很難獨(dú)立去處理一個(gè)或修補(bǔ)一個(gè)bug，不像CUDA有一個(gè)很好的生態(tài)你可以去處理。

我們有很多軟件組專門去對(duì)接不同的外部客戶，有Apple、有Midjourney，然后Anthropic，我離職之前也聽說，他們很多組是非常忙的。

泓君：是的，我昨天聽說，用谷歌的TPU最大的團(tuán)隊(duì)其實(shí)不是Anthropic，最大的團(tuán)隊(duì)其實(shí)是蘋果。蘋果是因?yàn)辇嬋裘髦霸贕oogle，他去蘋果的時(shí)候，把谷歌的一整套帶過去了，然后又直接用的TPU去訓(xùn)練他們的大模型。

Henry：對(duì)，我覺得也牽扯到一個(gè)軟件棧的遷移。就是你要用TPU的話，必須要把原來的一套軟件棧全部遷移到JAX、XLA上。如果你不遷移的話，你當(dāng)然可以去做，它能跑，但你就利用不到TPU那么好的性能和TCO。現(xiàn)在目前TPU相比GPU，它最大的優(yōu)勢就是它成本控制得很好，相比起芯片，它更多是依賴于軟件。

04 定制芯片痛點(diǎn)：Transformer先發(fā)優(yōu)勢能持續(xù)多久？

泓君：你覺得Google的Gemini模型，因?yàn)樗F(xiàn)在應(yīng)該是市場上最好的模型，它的訓(xùn)練出來跟TPU的關(guān)系有多大？能占決定性因素嗎？還是算法是占決定性因素的一部分？

Henry：算法當(dāng)然很重要，因?yàn)槲矣X得現(xiàn)在，特別是預(yù)訓(xùn)練，它CapEx很大。然后它算法我覺得，DeepMind那邊有非常前沿的算法。TPU能幫你去做的一件事情是，當(dāng)你有一個(gè)很好的算法之后，你提前跟TPU組溝通好，我是怎么樣的一個(gè)算法，我怎么樣的任務(wù)負(fù)載，我給你去定制這樣的一個(gè)加速器。這樣的話我能幫助你在一個(gè)更短的時(shí)間更快地迭代，去測試這樣一套算法。我覺得這是一個(gè)很重要的事情。如果說你的訓(xùn)練效率很差的話，你需要花更長周期去驗(yàn)證一套算法是否能work。但TPU如果能把你的時(shí)間打下來，之后迭代速度你就會(huì)更快一些。

Henry：我覺得這是任何芯片公司的一個(gè)痛點(diǎn)。它們很多的時(shí)候都是在預(yù)測未來市場的變化，包括預(yù)測未來模型的變化。之前知道的就是MoE（混合專家模型），也是很早就有這樣的一個(gè)想法。MoE很長一段時(shí)間在TPU和GPU上跑的效果都不是特別好，但是后來TPU和軟件一起增加了針對(duì)MoE的優(yōu)化。

泓君：可以詳細(xì)介紹一下為什么之前MoE一直在TPU上跑不起來的原因？

Henry：因?yàn)樗且粋€(gè)2D torus。相當(dāng)于每個(gè)TPU芯片只能跟它的鄰居、相鄰TPU芯片做通信。所以如果說你沒有一個(gè)All-to-All的通信的話，這樣中間就相當(dāng)于你要找一個(gè)朋友，中間要經(jīng)過很多個(gè)環(huán)節(jié)。這樣的話有很多的浪費(fèi)，很多的擁堵。

后來在V4的時(shí)候，TPU推出了一個(gè)3D torus，它用了OCS（光交換機(jī)），相當(dāng)于這是一個(gè)軟件可編程配置的交換機(jī)。你在一個(gè)TPU Pod節(jié)點(diǎn)，可以通過軟件來更改你想通信的那個(gè)TPU集群的路徑，這樣的話就相當(dāng)于一下子把MoE的痛點(diǎn)給解決了。之后MoE就在TPU上跑起來，效率就會(huì)明顯比之前高很多。

泓君：所以我理解這個(gè)迭代是以年來計(jì)算的。量產(chǎn)的節(jié)奏一般是多久？半年打得下來嗎？

Henry：打不下來，我覺得每家公司的理念都不一樣，TPU一直要做旗艦的訓(xùn)練芯片或旗艦推理芯片，這對(duì)快速迭代要求會(huì)非常高，因?yàn)槟忝恳淮酒紩?huì)塞很多樣的需求。當(dāng)你設(shè)計(jì)完，我們會(huì)做驗(yàn)證，然后再交給Broadcom去做通信上面的設(shè)計(jì)，然后在整個(gè)package level做驗(yàn)證，最后交給TSMC。我覺得整個(gè)流程最快也要兩年到兩年半、三年。

泓君：你剛剛提到谷歌已經(jīng)更新到V8了，這一款我理解它在設(shè)計(jì)上是兩年以前就做了。但是模型的更新，基本上每6個(gè)月就變化一次。也就是說，你要在兩年前去預(yù)測這個(gè)模型往哪個(gè)方向走。押對(duì)了嗎？

Henry：目前來講，V7應(yīng)該是押對(duì)了。這也可以解釋一下為什么之前TPU的芯片和GPU在紙面參數(shù)上是有挺大的距離的。因?yàn)橹癟PU主要的任務(wù)負(fù)載是內(nèi)部的一些推薦和排序算法，它沒有想到GPT出來之后，有這么大的算力需求，是完全不一樣的任務(wù)負(fù)載。

泓君：開始把它所有的核心性能往大模型的預(yù)訓(xùn)練上調(diào)是哪一代？

Henry：應(yīng)該就是V6開始的。V6開始做了兩個(gè)版本，一個(gè)是專門做訓(xùn)練，一個(gè)專門做推理。訓(xùn)練和推理本質(zhì)上它們用的是同一套架構(gòu)，推理可以理解成是訓(xùn)練芯片的一條子集，它可以有更小的運(yùn)算單元，它可以有更小的內(nèi)存，因?yàn)橄啾扔?xùn)練，推理不需要做Back Propagation（反向傳播），所以它中間不需要存儲(chǔ)很多的副本。

泓君：差不多也是在兩三年以前開始調(diào)整這個(gè)方向的。其實(shí)GPT在2020年就有GPT-3放出來。谷歌那個(gè)時(shí)候它已經(jīng)開始意識(shí)到這是一個(gè)next big thing，它有去做芯片上的調(diào)整或者GPU上的調(diào)整嗎？

Henry：對(duì)，因?yàn)門ransformer也是Google提出來的，然后根據(jù)這套架構(gòu)，芯片組很早就知道，如何去做這一套架構(gòu)的優(yōu)化，包括Attention kernel。

泓君：我覺得谷歌的TPU到現(xiàn)在它能在整個(gè)模型預(yù)訓(xùn)練中性能表現(xiàn)非常的優(yōu)秀，也是因?yàn)門ransformer這套架構(gòu)是谷歌發(fā)明的。然后從TPU的誕生開始，它就一直走的是這條路徑。所以我們其實(shí)也可以把TPU理解成一個(gè)針對(duì)于大模型預(yù)訓(xùn)練或者推理的ASIC，這樣說是對(duì)的吧？然后你這個(gè)ASIC就一定要押對(duì)方向，它押到了Transformer。

Henry：對(duì)。我們相當(dāng)于是一個(gè)先發(fā)的優(yōu)勢。本質(zhì)上ASIC和GPU，一個(gè)是通用性好，一個(gè)是通用性不好。一旦有個(gè)新的算法上的動(dòng)態(tài)改變，你在TPU上就很難去實(shí)現(xiàn)這樣一件事情。即使你有先發(fā)優(yōu)勢，但后面的競爭會(huì)越來越激烈。這樣的話，你的先發(fā)優(yōu)勢可能也會(huì)慢慢被蠶食。

所以說GPU勝就勝在它——因?yàn)楝F(xiàn)在模型迭代周期非常短，都是以月來做單位。我覺得有一個(gè)階段就是GPU，因?yàn)樗ㄓ眯院?，所以GPU上去跑模型的迭代速度會(huì)比TPU更快一些。

Henry：目前V7感覺跟GPU Blackwell已經(jīng)是旗鼓相當(dāng)了。但是我擔(dān)憂的一點(diǎn)就是，這一套架構(gòu)它的可擴(kuò)展性到底有多強(qiáng)，萬一將來有一個(gè)不同的范式，它怎么去跟上GPU的步伐。

泓君：如果出現(xiàn)了類似于不同于Transformer的新的架構(gòu)，那TPU就不一定有GPU的表現(xiàn)好。

泓君：RL（強(qiáng)化學(xué)習(xí)）對(duì)TPU的影響會(huì)大嗎？

Henry：肯定會(huì)是不一樣的任務(wù)負(fù)載，肯定是會(huì)有影響的。我覺得現(xiàn)在TPU的策略就是把芯片變得更加通用，往這樣一個(gè)方向去發(fā)展。相當(dāng)于它矩陣單元可以處理各種任務(wù)負(fù)載的矩陣計(jì)算，它也有專門負(fù)責(zé)去處理一些稀疏矩陣計(jì)算的單元。它可以理解成把很多硬件上的一些計(jì)算和內(nèi)存模塊化，來適應(yīng)將來不同的范式。

泓君：所以從某種意義上來講，也是一個(gè)向通用性的妥協(xié)。

Henry：對(duì)，我覺得之前以往幾代芯片可能設(shè)計(jì)得沒有那么激進(jìn)的原因也是有一部分的考量。如果一旦設(shè)計(jì)得非常激進(jìn)，你可以在Gemini上模型效率提升30%到40%，但萬一有變化呢？萬一有變化，那回去的話就會(huì)非常的痛苦。所以我覺得這是一種基于現(xiàn)實(shí)的妥協(xié)。

05 供應(yīng)鏈命門：博通為何關(guān)鍵？

泓君：我最近是看到一條新聞，說Google跟Meta也有一個(gè)這樣的TPU采購協(xié)議，然后谷歌向Meta提供TPU的托管服務(wù)。

Henry：我覺得它可能更多是依托于谷歌云，提供更多算力。軟件側(cè)的話，我離職之前也知道有很多組在做PyTorch和XLA的結(jié)合，但因?yàn)镻yTorch算子實(shí)在太多了，如果不在硬件上原生地去支持這些算子的話，性能表現(xiàn)就會(huì)比較差一些。如果直接用谷歌云的話，你相當(dāng)于是托管了，沒辦法做很多底層的控制，性能就會(huì)有浪費(fèi)。

Henry：這就是我剛才說到模型利用率。如果你結(jié)合得非常好的話，能幾乎滿狀態(tài)地達(dá)到一個(gè)峰值FLOPs或峰值內(nèi)存帶寬。但是如果你用谷歌云來跑的話，你很有可能用到只有50%到60%的利用率，但是你還是要付同樣的錢。目前我知道，直接購買TPU機(jī)架的只有Anthropic，其他都還是谷歌云。

泓君：我注意到谷歌API接口的成本大概最開始只有Open AI跟Anthropic的十分之一。同時(shí)，Anthropic最近的Claude Opus 4.5，它的API接口大概是下降了67%。有媒體報(bào)道把這部分歸功于它是用谷歌的TPU訓(xùn)練的。

Henry：推理成本上確實(shí)是這樣的。Google現(xiàn)在的推理芯片成本確實(shí)會(huì)比GPU要高不少，原因就是集群的推理，它的TCO就能打得下來。還有一個(gè)原因剛才沒有提到——GPU的集群它用的是NVLink、NVSwitch這樣的一種通信協(xié)議，這其實(shí)很燒錢，你可以理解成是一種基礎(chǔ)設(shè)施稅。你需要跟很多不同廠商去買這種交換機(jī)，然后部署在你的數(shù)據(jù)中心當(dāng)中，這是一個(gè)很大的成本開支。Google因?yàn)樗昧瞬灰粯拥耐負(fù)浼軜?gòu)，它用了芯片與芯片之間直接通信，它用的是銅，不用交換機(jī)，只有在某些節(jié)點(diǎn)上用一些光學(xué)交換機(jī)，但也比較少，實(shí)現(xiàn)了同樣的通信效果。所以它在成本支出上會(huì)比GPU要好很多。

泓君：所以在建數(shù)據(jù)中心的這一環(huán)，成本已經(jīng)拉開了。英偉達(dá)的主要成本是交換機(jī)，谷歌的主要成本是什么？是液冷嗎？

Henry：液冷是一塊。其實(shí)跟英偉達(dá)也差不太多。主要成本也是它的一些SerDes（串行器/解串器），這種SerDes就相當(dāng)于是把信號(hào)從一個(gè)芯片準(zhǔn)確無誤地傳輸?shù)搅硗庖粋€(gè)芯片。因?yàn)橄啾菺PU，TPU更多依賴于SerDes的穩(wěn)定性，所以這一塊資本支出還是很高的。

泓君：谷歌跟Broadcom的合作會(huì)持續(xù)多久？是不是如果量大了，谷歌可能就自己做了？

Henry：Broadcom好處就是它可以幫最大的客戶去爭取最大的產(chǎn)能，就是CoWoS和TSMC。所以說一直以來，TPU都是跟Broadcom去做這樣一個(gè)合作，目前我不覺得會(huì)有很大的改變。但這樣導(dǎo)致一個(gè)不好的問題就是，Broadcom的議價(jià)權(quán)會(huì)越來越大。如果非常依賴Broadcom，沒有一個(gè)備選的話，你在成本上就很難控制得下來。

泓君：所以谷歌它能直接跟CoWoS這一塊來議價(jià)嗎？決定的核心要素是什么？

Henry：主要還是HBM。我理解Broadcom是一個(gè)中間的環(huán)節(jié)，它會(huì)把所有的東西全部幫你鋪設(shè)好，然后交給TSMC去量產(chǎn)。所以我覺得，第一你需要去拿到一個(gè)很好的HBM的產(chǎn)能，再通過Broadcom去跟TSMC爭取一個(gè)好的CoWoS。

泓君：我聽說現(xiàn)在整個(gè)HBM的產(chǎn)能被英偉達(dá)壟斷了。

Henry：基本上是壟斷了。因?yàn)閯偛乓蔡岬剑?strong>現(xiàn)在我們已經(jīng)慢慢從計(jì)算密集型轉(zhuǎn)向內(nèi)存密集型，特別是像現(xiàn)在的Attention kernel，核心就是一個(gè)你怎么樣去更快的從內(nèi)存里把數(shù)據(jù)給搬運(yùn)出來。未來幾年的方向可能就是HBM能決定你的上限。如果你買不到好的HBM的話，那你的訓(xùn)練效率就會(huì)大打折扣。

Henry：博通主要的核心作用是做很多的通信ICI（Inter chip interconnect）。我們TPU團(tuán)隊(duì)主要設(shè)計(jì)它的前端。我們相當(dāng)于是把一張圖紙給打印出來，然后Broadcom會(huì)把每個(gè)芯片之間物理上去連接起來，去布局這樣一個(gè)拓?fù)涞木W(wǎng)絡(luò)。你可以理解成臟活累活，也可以理解成這是一個(gè)非常吃經(jīng)驗(yàn)的，也是技術(shù)壁壘非常高的核心環(huán)節(jié)。

06 TPU十年進(jìn)化史

泓君：如果我們用一句話來總結(jié)，你覺得現(xiàn)在谷歌的TPU可以挑戰(zhàn)英偉達(dá)的在GPU的壟斷地位嗎？或者說至少是我去阻撓一下英偉達(dá)在這個(gè)市場上絕對(duì)的定價(jià)權(quán)？

Henry：沒有絕對(duì)答案，但我的結(jié)論是，在某些限定的條件下，TPU是完全可以挑戰(zhàn)GPU的。限定條件就是大規(guī)模部署。因?yàn)門PU它主打就是走量。TPU其實(shí)不太擅長做一件事情就是，它沒辦法針對(duì)一個(gè)單用戶，比如說做Agent，它就不太適合，因?yàn)樗舆t會(huì)比較高一些。它必須在一個(gè)非常大的吞吐量下，比如有很多用戶同時(shí)去調(diào)用這個(gè)接口，才能把成本分?jǐn)傞_來。如果在大規(guī)模部署、模型相對(duì)比較穩(wěn)定，不需要很多的變動(dòng)的情況下，它的整體的成本就會(huì)相比GPU有很大的優(yōu)勢。

泓君：綜上我們所說的，我試著總結(jié)一下TPU跟GPU的優(yōu)勢跟劣勢。

整體來看，現(xiàn)在TPU在性能上，包括在模型的訓(xùn)練上，如果你用得好的話是可以把它跑滿的，它可能會(huì)達(dá)到GPU的性能甚至是比它跑得更好。在數(shù)據(jù)中心的部署上，它是更省成本的，這個(gè)是它的一些核心優(yōu)勢。同時(shí)，用了它你的推理成本可以降低。

它的缺點(diǎn)就是，首先我們?cè)谲浖纳鷳B(tài)上，XLA還是一個(gè)比較難入門的核心門檻，它沒有英偉達(dá)CUDA生態(tài)。另外一點(diǎn)，它在整個(gè)的起量上，包括對(duì)HBM供應(yīng)鏈的控制上，還是比較弱的。還有一個(gè)核心的問題就是說，如果大家使用了TPU，但是你內(nèi)部沒有特別懂的人，它還是一個(gè)黑盒，就是你沒有辦法用自己的工程師去把它調(diào)優(yōu)，然后把它的性能跑滿。如果用谷歌云的話，可能只能跑到50%到60%的性能。

在這種情況下，它跟GPU誰的性能更好，現(xiàn)在其實(shí)也是一個(gè)很難說的話題。所以整體上我們看到是這樣的一個(gè)趨勢。TPU最大的核心問題就是說，未來如果整個(gè)模型在架構(gòu)跟算法上有升級(jí)，它類似于一款專用的ASIC芯片，通用的GPU是更有優(yōu)勢的。但是如果你們的算法賭對(duì)了，你們就是有核心優(yōu)勢的。我的總結(jié)準(zhǔn)確嗎？

泓君：其實(shí)我們前面聊了這么多的TPU，你要不要跟大家再簡單地回溯一下，谷歌是怎么樣去發(fā)明TPU的？它的歷史是什么？然后誰是中間的核心人物？

Henry：我們最開始TPU主要是針對(duì)內(nèi)部CNN這個(gè)大模型的一個(gè)加速器。最開始第一代芯片只是一款推理芯片。最開始的初衷就是大家發(fā)現(xiàn)，我們內(nèi)部有很多線上推薦系統(tǒng)，但它的推理都是用CPU來做推理。大家都知道CPU的并行效果是非常差的。那時(shí)候也沒法用GPU，因?yàn)槟菚r(shí)的GPU還沒有加入矩陣計(jì)算單元。谷歌說為什么我們不自己開發(fā)一款只做矩陣計(jì)算的模型。所以這就是最開始的初衷。Jeff Dean，包括后來圖靈獎(jiǎng)的獲得者David Patterson深度參與了第一代模型的架構(gòu)。

第二代芯片，就是一個(gè)非常旗艦的做訓(xùn)練的模型，包括我們后來知道的AlphaGo、PaLM、Bard、早期的Early Transformer，包括后來Transformer，都是用了這一套架構(gòu)去做的訓(xùn)練。但那時(shí)候有一個(gè)比較大的問題就是，先有了硬件，但是軟件還沒有跟上來，那個(gè)協(xié)同效應(yīng)還沒有產(chǎn)生。中間我們也提出了系統(tǒng)級(jí)的TPU Pod，一個(gè)拓?fù)涞木W(wǎng)絡(luò)，這也是奠定了現(xiàn)在TPU能有出色性能的基礎(chǔ)。

在這期間我們又針對(duì)推薦和排序的算法加入了一個(gè)Sparse Core（稀疏式的計(jì)算單元），這也很好地解決谷歌內(nèi)部的推薦的一些任務(wù)負(fù)載。

然后V5、V6的話就是開始進(jìn)入大模型時(shí)代了，所以我們那時(shí)候針對(duì)Transformer做很多的優(yōu)化，中間還推出了一個(gè)推理的版本，因?yàn)橥评硎袌鲂枨蠓浅４蟆?/p>

泓君：TPU剛剛誕生的時(shí)候，還有一些特別好玩的故事。當(dāng)時(shí)Jeff Dean是谷歌的首席科學(xué)家，2013年左右他是在一次內(nèi)部的演示中，講深度學(xué)習(xí)網(wǎng)絡(luò)會(huì)怎么樣去在語音識(shí)別上有一個(gè)突破性的進(jìn)展，那個(gè)時(shí)候大家就發(fā)現(xiàn)，我們需要的是GPU，而不是CPU。

后來他們就開始在內(nèi)部去Demo這個(gè)事情。然后Jonathan Ross，現(xiàn)在已經(jīng)是英偉達(dá)的首席軟件架構(gòu)師了，因?yàn)橛ミ_(dá)收編了Groq，他當(dāng)時(shí)內(nèi)部演示的時(shí)候就放了兩頁P(yáng)PT。第一頁是，好消息：這個(gè)GPU真的是工作了。第二頁就是，壞消息：我們付不起這個(gè)錢。如果所有的用戶他們給谷歌發(fā)三分鐘的語音的話，那么當(dāng)時(shí)谷歌整個(gè)數(shù)據(jù)中心的成本會(huì)增加一倍，大概是數(shù)百億美元，是非常大的一個(gè)量。這個(gè)其實(shí)也是他們開始去研究TPU的一個(gè)起點(diǎn)。接下來的故事就是AlphaGo擊敗圍棋冠軍李世石的時(shí)候，谷歌已經(jīng)在用TPU了，而且據(jù)說在他們的AI算法里面是放了四張TPU。

07 新星Groq：踩準(zhǔn)每一次紅利的編譯器公司

泓君：剛剛提到了Jonathan Ross，我們要不要講一下Groq？因?yàn)橛ミ_(dá)也是把它收購了。然后它在推理芯片端，我記得它最開始出來的時(shí)候，它的整個(gè)性能表現(xiàn)，包括它說的那些方案，在業(yè)界還是讓很多人動(dòng)心。

Henry：對(duì)，我覺得我當(dāng)初也跟他們內(nèi)部團(tuán)隊(duì)人聊過。目前他們被英偉達(dá)收購，是踩準(zhǔn)了每一個(gè)時(shí)代的紅利，踩準(zhǔn)了每一個(gè)很好的時(shí)間點(diǎn)。第一個(gè)時(shí)間點(diǎn)就是推理，第二個(gè)時(shí)間點(diǎn)是ASIC，第三個(gè)時(shí)間點(diǎn)就是今年是Agent元年，有很多智能體的爆發(fā)。Groq最好的一個(gè)應(yīng)用場景就是Agent，智能體。因?yàn)锳gent智能體它對(duì)延遲的要求是非常高的，如果說你的延遲做得很差的話，整個(gè)幫你去做這個(gè)任務(wù)的鏈條就會(huì)被拉到無限長，對(duì)于單用戶來講是非常痛苦的一件事情。所以Groq能很好地去解決或者說解決這樣的一個(gè)問題。

Groq的芯片，因?yàn)镴onathan Ross最開始是TPU的編譯器團(tuán)隊(duì)，是TPU compiler那邊的一個(gè)類似于創(chuàng)始人。相當(dāng)于他是帶了一套非常成熟的TPU的編譯器XLA的經(jīng)驗(yàn)去創(chuàng)立了Groq。所以Groq你可以理解成它是一家編譯器的公司，而不是一家芯片公司。因?yàn)樗男酒嗍菫樗能浖幾g器服務(wù)的。它的硬件可能比TPU更加單一，或者說沒那么的智能一些。編譯器在某種程度上決定了一切。它LPU里面每個(gè)時(shí)間點(diǎn)，每個(gè)計(jì)算單元里面去做哪些事情，它可以精準(zhǔn)到每一個(gè)cycle，都是用編譯器去確定好的。一個(gè)確定性非常高的事情。

泓君：你剛剛提到他們精準(zhǔn)地踩到了每一個(gè)時(shí)代的紅利點(diǎn)。第一輪是推理，第二輪是ASIC，第三輪是Agent。這三個(gè)時(shí)間點(diǎn)對(duì)芯片的要求有什么不一樣嗎？

Henry：Groq最開始就主做推理，它不做訓(xùn)練，它軟件和硬件的架構(gòu)決定了它做不了訓(xùn)練。第二個(gè)ASIC的話，相當(dāng)于它的成本更加可控一些。

泓君：所以現(xiàn)在Agent，我可以理解，比如說現(xiàn)在我們用Agent覺得延遲很低了，它還是有硬件層面的提升的。

Henry：對(duì)。谷歌的TCO好的原因，就是有海量客戶同時(shí)去用這樣一個(gè)推理服務(wù)，它的吞吐量就會(huì)很高，但它不在乎尾部延遲。尾部延遲指的就是單用戶用的話，它可能會(huì)有時(shí)候會(huì)快，有時(shí)候會(huì)慢一點(diǎn)，相信大家也都會(huì)有這樣的體驗(yàn)。但是Groq，你一旦去用的話，它就會(huì)非常非?？臁Ｋ脑淼谝皇撬腟RAM靜態(tài)隨機(jī)存取存儲(chǔ)器。第二，它是一個(gè)相當(dāng)于你一個(gè)人占用了非常多的LPU資源，而不是跟很多人去共享。

Henry：適合Groq去服務(wù)的場景，第一個(gè)是Agent，第二個(gè)是實(shí)時(shí)語音，還有一些高頻的交易，這些場景對(duì)延遲要求會(huì)更高一些。我覺得它就是主打一個(gè)市場的差異化?，F(xiàn)在主流的市場都是做這種大模型的推理和訓(xùn)練，它可能就是針對(duì)一些小規(guī)模部署的計(jì)算集群做這樣的一個(gè)低延遲的性能優(yōu)化。

泓君：你覺得未來在整個(gè)Agent的應(yīng)用中，推理芯片它會(huì)是一個(gè)百花齊放的格局，還是說它依然是英偉達(dá)的GPU為主導(dǎo)的？

Henry：我覺得自從去年Deepseek出來之后，大家一下子發(fā)現(xiàn)如果你成本打下來之后，推理的需求是非常大的，會(huì)有很多不同層次的市場。當(dāng)然Google和TPU肯定會(huì)占據(jù)最高層，就是最大規(guī)模那些部署的，包括云、包括那些大模型的推理。中間和下面的一層，我覺得會(huì)有更多的玩家，更多的參與者進(jìn)來。

泓君：所以未來整個(gè)芯片市場在推理端也會(huì)分層，然后分應(yīng)用場景。

Henry：對(duì)。最大量的需求還是這些大的巨頭。你沒辦法說我要做下一家英偉達(dá)，你基本上做不到，因?yàn)樗o(hù)城河實(shí)在太深了。你要是做初創(chuàng)公司的話，只能做一些尾端的客戶。

很多人都在討論TPU和GPU之間區(qū)別、孰優(yōu)孰劣，但我覺得未來肯定是兩者并存的。包括所有很多大廠都在自研自己家的芯片，不管是推理還是訓(xùn)練。我覺得你不能說GPU將來會(huì)一統(tǒng)江山或TPU會(huì)一統(tǒng)江山，我覺得這個(gè)生態(tài)是一個(gè)非常健康的生態(tài)。有定制的環(huán)節(jié)，也有通用的環(huán)節(jié)，有通用的場景，也有定制的場景，也有垂類的場景。所以我覺得將來是百花齊放的一個(gè)格局。所以一旦產(chǎn)能、各方面供應(yīng)鏈都解決問題之后，我覺得對(duì)用戶來講都是件好事情，一下子把成本降下來之后，你能做的事情就有無限的可能。

本文系作者硅谷101 授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)