當(dāng)下,人工智能技術(shù)正從基礎(chǔ)模型階段向智能體(Agentic AI)與物理AI(Physical AI)方向演進(jìn)——智能體需要具備自主規(guī)劃、決策與執(zhí)行的能力,物理AI則要實(shí)現(xiàn)對(duì)物理世界的高精度實(shí)時(shí)模擬,兩者都對(duì)計(jì)算資源提出了極高的需求。傳統(tǒng)GPU集群規(guī)模有限,難以支撐這類復(fù)雜任務(wù)的大規(guī)模訓(xùn)練與推理,企業(yè)迫切需要更強(qiáng)大的端到端解決方案。
近日,NVIDIA與谷歌云宣布達(dá)成深度合作,聯(lián)合推出基于NVIDIA Vera Rubin GPU架構(gòu)的A5X云實(shí)例。該實(shí)例支持線性擴(kuò)展至近100萬(wàn)顆Vera Rubin GPU,搭配谷歌云的高性能基礎(chǔ)設(shè)施與Gemini多模態(tài)模型,為企業(yè)提供構(gòu)建AI工廠的核心工具。此次合作主要通過線上技術(shù)發(fā)布會(huì)向全球開發(fā)者與企業(yè)公布,并未設(shè)置特定的線下發(fā)布場(chǎng)地。
從技術(shù)層面分析,A5X實(shí)例的核心在于Vera Rubin GPU的高性能計(jì)算能力與谷歌云的分布式網(wǎng)絡(luò)優(yōu)化。作為NVIDIA新一代GPU架構(gòu),Vera Rubin相比上一代H100,在FP8算力與內(nèi)存帶寬上都有明顯提升,能高效處理智能體的多模態(tài)數(shù)據(jù)輸入和物理AI的大規(guī)模并行模擬任務(wù)。谷歌云則借助其全球分布的數(shù)據(jù)中心與低延遲網(wǎng)絡(luò),保障百萬(wàn)級(jí)GPU集群的協(xié)同運(yùn)行,同時(shí)集成Gemini模型,為企業(yè)提供從數(shù)據(jù)預(yù)處理到模型部署的全流程支持。
這次合作的價(jià)值在于,它緩解了企業(yè)構(gòu)建AI工廠時(shí)面臨的算力瓶頸與技術(shù)整合難題。比如,制造業(yè)企業(yè)可借助該方案訓(xùn)練智能機(jī)器人的自主操控模型,縮短訓(xùn)練周期并提升精度;自動(dòng)駕駛公司則能通過物理AI模擬復(fù)雜路況,降低實(shí)車測(cè)試成本。麥肯錫2024年發(fā)布的《AI工廠白皮書》顯示,這類大規(guī)模GPU集群解決方案能幫助企業(yè)將AI模型訓(xùn)練效率提升40%以上,同時(shí)降低35%的運(yùn)營(yíng)成本。
行業(yè)內(nèi),近期AWS也宣布與AMD合作,推出基于MI300X GPU的云實(shí)例,同樣瞄準(zhǔn)大模型訓(xùn)練與智能體應(yīng)用;微軟Azure則在持續(xù)擴(kuò)展基于NVIDIA H100的超級(jí)集群,同時(shí)加速自研Azure Maia AI芯片的部署,意在AI基礎(chǔ)設(shè)施領(lǐng)域與NVIDIA-谷歌云組合形成競(jìng)爭(zhēng)。這些動(dòng)作意味著,全球科技巨頭正圍繞AI計(jì)算資源展開激烈角逐,企業(yè)用戶也將從中獲得更多高性能、低成本的解決方案選擇。






快報(bào)