国产黄色激情av在线干,天堂va无线va在线va

人們常說(shuō)，新一代的人工智能浪潮是由數(shù)據(jù)、算法和算力來(lái)驅(qū)動(dòng)的。最近幾年模型參數(shù)的爆炸式增長(zhǎng)更是讓大家看到了算力的基礎(chǔ)性作用。

為了配合企業(yè)用戶對(duì)于算力的強(qiáng)烈需求，當(dāng)前的很多 AI 硬件（比如 GPU）都鉚足了勁兒地提高峰值算力，但這種提升通常以簡(jiǎn)化或者刪除其他部分（例如內(nèi)存的分層架構(gòu)）為代價(jià)[1]，這就造成 AI 硬件的內(nèi)存發(fā)展速度遠(yuǎn)遠(yuǎn)落后于算力的增長(zhǎng)速度。

SOTA Transformer 模型參數(shù)量（紅點(diǎn)）和 AI 硬件內(nèi)存大?。ňG點(diǎn)）增長(zhǎng)趨勢(shì)對(duì)比。
圖片來(lái)源：https://github.com/amirgholami/ai_and_memory_wall/blob/main/imgs/pdfs/model_size_scaling.pdf

因此，在遇到大模型的訓(xùn)練和推理時(shí)，用戶總是感覺(jué)顯存或內(nèi)存不夠用，這就是所謂的「內(nèi)存墻」問(wèn)題。

為了打破內(nèi)存墻，人們想了很多種辦法，比如前段時(shí)間大火的 Colossal-AI 項(xiàng)目就是一個(gè)適用于訓(xùn)練階段的方法。在這個(gè)項(xiàng)目中，開發(fā)者高效利用了「GPU+CPU 異構(gòu)內(nèi)存」的策略，使得一塊消費(fèi)級(jí)顯卡就能訓(xùn)練 180 億參數(shù)的大模型。

而在推理階段，模型對(duì)硬件的主要需求就是加載模型的全部參數(shù)量，所以對(duì)算力要求相對(duì)低一些。一般對(duì)于計(jì)算密集型模型，我們可以采用 INT8 量化或者模型并行等策略，用多張 GPU 及其顯存資源來(lái)推理單個(gè)模型。但實(shí)際上，還有很多工業(yè)界應(yīng)用場(chǎng)景的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型可以使用 CPU 與內(nèi)存來(lái)做推理，例如推薦系統(tǒng)、點(diǎn)擊預(yù)估等。

對(duì)于這些模型，我們除了內(nèi)存容量上的訴求外，可能還需要考量異常情況下的數(shù)據(jù)恢復(fù)時(shí)間、硬件成本、維護(hù)成本等問(wèn)題，這也對(duì)破解內(nèi)存墻方案的選擇提出了新的要求。

01 工業(yè)界的推理攔路虎：內(nèi)存墻

在工業(yè)場(chǎng)景下，海量數(shù)據(jù)、高維模型確實(shí)能帶來(lái)更好的效果，但這些數(shù)據(jù)的高維、稀疏特征又為計(jì)算和存儲(chǔ)帶來(lái)了很大的挑戰(zhàn)。畢竟像推薦系統(tǒng)這樣的模型，隱藏層大小可能就是數(shù)百萬(wàn)的量級(jí)，總參數(shù)量甚至能達(dá)到十萬(wàn)億的量級(jí)，是 GPT-3 的百倍大小，所以其用戶往往需要特別強(qiáng)大的內(nèi)存支持系統(tǒng)才能實(shí)現(xiàn)更好的在線推理能力。

既然內(nèi)存不夠，那豈不是直接堆內(nèi)存條（如 DRAM）就夠了？這從原理上是可行的，但一方面 DRAM 內(nèi)存的價(jià)格不便宜啊，這類模型需要的內(nèi)存又不是幾百 GB，而是動(dòng)不動(dòng)就沖上數(shù)十 TB，而單條 DRAM 內(nèi)存一般都只有幾十 GB，很少有超過(guò) 128GB 的。所以，整體算一下，不論是成本，還是在容量擴(kuò)展上的能力，這一方案都不太容易被大家接受。

此外，DRAM 內(nèi)存還有一個(gè)問(wèn)題，即數(shù)據(jù)是易失的，或者說(shuō)：一斷電就丟數(shù)據(jù)。有時(shí)候模型重啟或者排除故障的時(shí)候，只能重新將權(quán)重從更慢的存儲(chǔ)設(shè)備，如 SSD 或機(jī)械硬盤中加載到內(nèi)存里，非常耽誤時(shí)間，這對(duì)于在線推理業(yè)務(wù)來(lái)說(shuō)是很難容忍的。

02 打破推理內(nèi)存墻，不用 DRAM 用什么？

那么，除了添購(gòu) DRAM 這個(gè)不太劃算的選擇外，提供在線推理服務(wù)或使用這類應(yīng)用的企業(yè)要打破內(nèi)存墻，還有其他選擇嗎？

如果仔細(xì)比較一下不同存儲(chǔ)層級(jí)的容量和延遲數(shù)據(jù)，我們可以發(fā)現(xiàn)，DRAM 內(nèi)存和固態(tài)盤 / 硬盤存儲(chǔ)之間其實(shí)存在很大的差距。如果能開發(fā)一種全新的存儲(chǔ)部件或設(shè)備來(lái)填補(bǔ)這個(gè)缺口，那內(nèi)存墻問(wèn)題可能就會(huì)得到緩解。

這就是英特爾® 傲騰™ 持久內(nèi)存（Intel® Optane™ Persistent Memory, 簡(jiǎn)稱 PMem）誕生的背景。其獨(dú)有的傲騰™ 存儲(chǔ)介質(zhì)與先進(jìn)的內(nèi)存控制器和其它軟硬件技術(shù)相結(jié)合，使其在性能上接近 DRAM 內(nèi)存，在容量上又能有數(shù)倍的提升（單條容量可達(dá) 512GB），用在基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器的雙路平臺(tái)上時(shí)，理論上可提供最高達(dá) 12TB 的內(nèi)存總?cè)萘浚?TB DRAM+8TB 持久內(nèi)存），相比之下，基于純 DRAM 的方案不但在容量擴(kuò)展能力上遠(yuǎn)遠(yuǎn)不及，在成本上也讓人難以承受。

用書的存放和查找做例子，來(lái)理解不同存儲(chǔ)層級(jí)的特點(diǎn)。

此外，傲騰™ 持久內(nèi)存還有兩個(gè)重要特性：可按字節(jié)尋址和數(shù)據(jù)持久性，分別匯集了內(nèi)存與存儲(chǔ)的優(yōu)點(diǎn)。傳統(tǒng)存儲(chǔ)需要按塊進(jìn)行讀寫尋址，就如同去圖書館借書時(shí)，必須要把放置有目標(biāo)書籍的整個(gè)書架上的書都背回家再做分揀，而內(nèi)存按字節(jié)尋址則相當(dāng)于能夠精準(zhǔn)定位目標(biāo)書籍的位置并僅將其借出。

數(shù)據(jù)持久性則補(bǔ)全了 DRAM 內(nèi)存的先天不足，即可在斷電后依然能保留數(shù)據(jù)，這就讓大體量的內(nèi)存數(shù)據(jù)庫(kù)在計(jì)算系統(tǒng)出現(xiàn)計(jì)劃內(nèi)或計(jì)劃外停機(jī)時(shí)，恢復(fù)數(shù)據(jù)及服務(wù)的速度大大加快，畢竟中間節(jié)省了從固態(tài)盤或硬盤上將數(shù)百 GB，甚至是 TB 級(jí)數(shù)據(jù)讀回內(nèi)存的耗時(shí)。

PayPal 的實(shí)踐，證明持久內(nèi)存很劃算！

光練不說(shuō)傻把式，光說(shuō)不練假把式，傲騰™ 持久內(nèi)存能不能幫助用戶打破 AI 內(nèi)存墻，我們還是要眼見(jiàn)為實(shí)。

以全球知名的在線支付服務(wù)商 PayPal 為例。和其他金融類服務(wù)企業(yè)一樣，PayPal 也難逃欺詐的挑戰(zhàn)——即便在這方面的應(yīng)對(duì)水平要高于業(yè)界的平均水平，每年損失仍會(huì)超過(guò) 10 億美元。因此 PayPal 對(duì)反欺詐格外上心，不但為此早早構(gòu)建了具備強(qiáng)大反欺詐預(yù)防模型的實(shí)時(shí)決策系統(tǒng)，為了實(shí)時(shí)識(shí)別新出現(xiàn)的欺詐模式，PayPal 還在不斷強(qiáng)化這個(gè)系統(tǒng)在處理和分析相關(guān)數(shù)據(jù)時(shí)的效率。

對(duì)于本就承擔(dān)著上百 PB 數(shù)據(jù)處理任務(wù)的 PayPal IT 基礎(chǔ)設(shè)施來(lái)說(shuō)，反欺詐決策平臺(tái)數(shù)據(jù)量的增長(zhǎng)和數(shù)據(jù)處理和分析效率的提升可是一個(gè)嚴(yán)峻的挑戰(zhàn)。雖然它從 2015 年就導(dǎo)入了 Aerospike 的數(shù)據(jù)庫(kù)技術(shù)，將主索引數(shù)據(jù)存入內(nèi)存來(lái)實(shí)現(xiàn)更好的實(shí)時(shí)性，但隨著主索引數(shù)據(jù)規(guī)模的不斷擴(kuò)大，節(jié)點(diǎn)中的內(nèi)存容量很容易耗盡，進(jìn)而就會(huì)影響數(shù)據(jù)讀寫和處理的實(shí)時(shí)性。此時(shí)，若要采購(gòu)新的節(jié)點(diǎn)又將耗費(fèi)高昂的成本。注意，這里的成本不止包含硬件成本，還有隨之而來(lái)的管理人員成本和功耗成本。

所以 PayPal 更傾向于能夠提高單位節(jié)點(diǎn)存儲(chǔ)密度的方案。

綜合這些訴求，PayPal 選擇了導(dǎo)入英特爾的傲騰™ 持久內(nèi)存，而這里也有另一個(gè)先決條件，就是 Aerospike 正好是這款創(chuàng)新硬件發(fā)布后第一波支持它的數(shù)據(jù)庫(kù)廠商之一。

借助 Aerospike 數(shù)據(jù)庫(kù)的混合內(nèi)存架構(gòu)（ HMA），PayPal 可將主索引轉(zhuǎn)存到傲騰™ 持久內(nèi)存中，而非過(guò)去的 DRAM 中。這么做的好處非常明顯，因?yàn)榘硫v™ 持久內(nèi)存的單條容量遠(yuǎn)高于 DRAM，且每 GB 成本也顯著低于 DRAM，這就可以幫助 PayPal 將每節(jié)點(diǎn)的總存儲(chǔ)空間提高為原來(lái)的 4 倍（從 3.2 TB 到 12 TB），因此 PayPal 只需使用更小的集群就可以滿足業(yè)務(wù)所需的高性能，從而讓服務(wù)器數(shù)量減少約 50%，每集群的成本降低約 30% 。

將主索引存儲(chǔ)在傲騰™ 持久內(nèi)存中還有一個(gè)額外的好處，也就是我們前面提到的數(shù)據(jù)持久性。這使得 Aerospike 完成索引重建的時(shí)間從 59 分鐘縮短至 4 分鐘，滿足了 PayPal 對(duì)較長(zhǎng)運(yùn)行時(shí)間和更高可靠性的要求。據(jù)悉，英特爾和 Aerospike 之間多年的合作還成就了一系列更深層次的優(yōu)化，包括在傲騰™ 持久內(nèi)存中存儲(chǔ)更多數(shù)據(jù)（不僅僅是索引）。

在采用傲騰™ 持久內(nèi)存加持的 Aerospike 實(shí)時(shí)數(shù)據(jù)平臺(tái)后，PayPal 以其 2015 年的欺詐數(shù)據(jù)量和此前使用的平臺(tái)為基準(zhǔn)做了一個(gè)評(píng)估，它發(fā)現(xiàn)新方案可以將其欺詐計(jì)算的服務(wù)級(jí)別協(xié)議 (SLA) 遵守率從 98.5% 提升到 99.95%，漏查的欺詐交易量降到約為原來(lái)的 1/30。同時(shí)，與先前的基礎(chǔ)設(shè)施相比，使用的服務(wù)器總數(shù)量可以減少近 90%（從 1024 臺(tái)減少到 120 臺(tái)），相關(guān)的硬件占用空間可減到約為原來(lái)的 1/8，吞吐量可增至原來(lái)的 5 倍（每秒事務(wù)處理量從 20 萬(wàn)提升到 100 萬(wàn)），硬件成本下降為原來(lái)的約 1/3（預(yù)計(jì)硬件成本從 1250 萬(wàn)美元省至 350 萬(wàn)美元）。

需要指出的是，其實(shí)在 PayPal 的 IT 基礎(chǔ)設(shè)施中，傲騰™ 持久內(nèi)存并不是一個(gè)孤立的部件，與它緊密配合且內(nèi)置了 AI 加速能力（英特爾® 深度學(xué)習(xí)加速技術(shù)）的第二代英特爾® 至強(qiáng)® 可擴(kuò)展處理器也是這一解決方案的靈魂所在。相信如果把它換成 AI 加速能力以及內(nèi)存子系統(tǒng)帶寬和性能表現(xiàn)更優(yōu)的第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器，這種打破內(nèi)存墻的效果將更加明顯。

AlphaFold2 端到端高通量?jī)?yōu)化

值得一提的是，在 AI for Science 領(lǐng)域，至強(qiáng)® 可擴(kuò)展處理器 + 傲騰™ 持久內(nèi)存的組合所帶來(lái)的突破內(nèi)存墻實(shí)踐也開始大放異彩。

以這幾年大火的 AlphaFold2 為例。作為 AI for Science 領(lǐng)域的著名大模型，AlphaFold2 的落地部署在算力和存儲(chǔ)方面都面臨著嚴(yán)峻的挑戰(zhàn)，這也給內(nèi)置高位寬優(yōu)勢(shì)（AVX-512 等技術(shù)）的第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器和大肚量的傲騰™ 持久內(nèi)存提供了盡情發(fā)揮的空間。

據(jù)英特爾相關(guān)技術(shù)專家透露的信息，他們正在英特爾這套計(jì)算 + 存儲(chǔ)的創(chuàng)新產(chǎn)品組合上優(yōu)化 AlphaFold2。一方面，在模型推理階段，他們通過(guò)對(duì)注意力模塊（attention unit）進(jìn)行大張量切分（tensor slicing），以及使用英特爾® oneAPI 進(jìn)行算子融合等優(yōu)化方法，提升了算法的計(jì)算效率和 CPU 利用率，加快了并行推理速度，并緩解了算法執(zhí)行中各個(gè)環(huán)節(jié)面臨的內(nèi)存瓶頸等問(wèn)題。

另一方面，他們通過(guò)使用傲騰™ 持久內(nèi)存，為 AlphaFold 2 實(shí)現(xiàn)了 TB 級(jí)內(nèi)存的戰(zhàn)略級(jí)支持，輕松解決了多實(shí)例并行執(zhí)行時(shí)內(nèi)存峰值疊加的內(nèi)存瓶頸。這個(gè)瓶頸有多大？據(jù)英特爾專家介紹：在輸入長(zhǎng)度為 765aa 的條件下，64 個(gè)實(shí)例并行執(zhí)行時(shí)，內(nèi)存容量的需求就會(huì)突破 2TB。在這種情形下，對(duì)廣大用戶來(lái)說(shuō)，使用傲騰™ 持久內(nèi)存是一個(gè)可行且可負(fù)擔(dān)的方案。

03 除了傲騰™ 持久內(nèi)存，還有哪些方案可以打破內(nèi)存墻？

雖然傲騰™ 持久內(nèi)存的出現(xiàn)為一些應(yīng)用場(chǎng)景提供了打破內(nèi)存墻的可行路徑，但截至目前，硬件領(lǐng)域還沒(méi)有出現(xiàn)一個(gè)「一招鮮吃遍天」的內(nèi)存墻解決方案，不過(guò)其他一些技術(shù)路徑齊頭并進(jìn)的勢(shì)頭，還是讓我們看到了解決這一問(wèn)題的希望。討論熱度較高的解決方案包括在即將呈爆發(fā)式成長(zhǎng)的異構(gòu)系統(tǒng)中實(shí)現(xiàn)統(tǒng)一和池化的內(nèi)存資源（把不同運(yùn)算單元匹配的 HBM、顯存和系統(tǒng)內(nèi)存集中管理和分配），以及前瞻性的存算一體架構(gòu)等。

在異構(gòu)系統(tǒng)中打造池化的內(nèi)存資源是近年來(lái)針對(duì)算力和存儲(chǔ)間瓶頸問(wèn)題的比較熱的一個(gè)創(chuàng)新方向。為了實(shí)現(xiàn) CPU 與 GPU、FPGA 等各種專用加速芯片的高速互聯(lián)，英特爾早在 2019 年就牽頭成立了名為 CXL（Compute Express Link）的標(biāo)準(zhǔn)組織。對(duì)于存儲(chǔ)來(lái)說(shuō)，CXL 將提供新的內(nèi)存接口，與原來(lái)的 DDR 相比，它具有更高的可擴(kuò)展性，更高的帶寬，支持包括傲騰™ 產(chǎn)品在內(nèi)的各種存儲(chǔ)方案，而且它的架構(gòu)設(shè)計(jì)不局限于單個(gè)系統(tǒng)，而是可以在多機(jī)之間進(jìn)行連接，實(shí)現(xiàn)多機(jī)共享。大內(nèi)存技術(shù)方案的代表性企業(yè) MemVerge 的創(chuàng)始人兼 CEO 范承工評(píng)價(jià)說(shuō)，CXL 是一個(gè)改變游戲規(guī)則的新技術(shù)，它可以實(shí)現(xiàn)內(nèi)存和計(jì)算的相對(duì)獨(dú)立，有望實(shí)現(xiàn)多機(jī)之間的內(nèi)存池化共享以及真正的可組合基礎(chǔ)設(shè)施，可以動(dòng)態(tài)地為系統(tǒng)添加計(jì)算、內(nèi)存、存儲(chǔ)資源[2]。

存算一體則是讓存儲(chǔ)具備計(jì)算的能力，從而解決數(shù)據(jù)反復(fù)搬遷導(dǎo)致的效率低下問(wèn)題。如今國(guó)內(nèi)外眾多企業(yè)都已經(jīng)開展了存算一體技術(shù)的研發(fā)，包括英特爾、SK 海力士、IBM、美光、三星、臺(tái)積電、阿里等傳統(tǒng)芯片大廠以及眾多新興 AI 和存儲(chǔ)企業(yè)[3]。

不過(guò)，這些方案在成本、技術(shù)成熟度等方面還需要更多驗(yàn)證。

所以，盡管我們都希望看到更多前瞻性解決方案能夠早日落地，但是短期來(lái)看，英特爾®傲騰™ 持久內(nèi)存仍然是當(dāng)前比較容易實(shí)現(xiàn)而且性價(jià)比較高的一種內(nèi)存墻解決方案。況且，傲騰™ 持久內(nèi)存的容量還在持續(xù)升級(jí)，不久之后就可能看到單條 1TB 容量的產(chǎn)品出現(xiàn)，想必到了那時(shí)，其打破內(nèi)存墻的效果將更加凸顯。

本文系作者機(jī)器之心授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)