人工智能技術(shù)向邊緣端滲透的過程中,端側(cè)設(shè)備對(duì)復(fù)雜模型的運(yùn)行需求越來越大,但內(nèi)存資源有限的問題也愈發(fā)突出。拿英偉達(dá)Jetson系列來說,這類面向工業(yè)機(jī)器人、智能攝像頭等邊緣場(chǎng)景的設(shè)備,往往因?yàn)閮?nèi)存不足沒法部署大參數(shù)模型,使得多模態(tài)AI應(yīng)用不得不依賴云端計(jì)算,既增加了延遲,又提高了成本。4月20日,英偉達(dá)正式推出Jetson平臺(tái)的內(nèi)存優(yōu)化方案,專門針對(duì)這個(gè)痛點(diǎn)給出了系統(tǒng)性的解決辦法。方案通過軟硬件協(xié)同優(yōu)化,盡可能釋放Jetson設(shè)備的內(nèi)存空間,讓端側(cè)能運(yùn)行更大規(guī)模的AI模型。方案在系統(tǒng)層的優(yōu)化涉及七個(gè)方面:禁用圖形界面來減少UI相關(guān)的內(nèi)存占用、關(guān)閉不必要的后臺(tái)服務(wù)、調(diào)整Carveout配置(減少硬件預(yù)留內(nèi)存)、優(yōu)化IOMMU參數(shù)降低內(nèi)存管理開銷、采用裸機(jī)部署減少操作系統(tǒng)層的冗余、語言遷移(比如把Python代碼轉(zhuǎn)成C++來提升內(nèi)存效率),以及組件精簡。實(shí)際測(cè)試顯示,這些措施能讓單臺(tái)Jetson設(shè)備最多釋放412MB系統(tǒng)內(nèi)存,為AI模型運(yùn)行騰出更多空間。除了系統(tǒng)層的調(diào)整,方案還引入了模型量化技術(shù),通過降低模型參數(shù)的精度來減少內(nèi)存占用。比如對(duì)Qwen3 8B模型采用W4A16量化(權(quán)重4位、激活16位),能節(jié)省大約10GB內(nèi)存,同時(shí)模型性能的損失也控制在可接受的范圍內(nèi)。把系統(tǒng)層和模型層的優(yōu)化結(jié)合起來,Jetson平臺(tái)最多能釋放約12GB內(nèi)存,大大提升了設(shè)備承載模型的能力。這個(gè)方案已經(jīng)在Reachy Mini機(jī)器人項(xiàng)目中成功應(yīng)用。Reachy Mini是一款小型服務(wù)機(jī)器人,搭載Jetson Orin Nano芯片,之前因?yàn)閮?nèi)存限制沒法運(yùn)行多模態(tài)AI模型。用了英偉達(dá)的優(yōu)化方案后,這款機(jī)器人不用依賴云端,就能在本地運(yùn)行多模態(tài)AI任務(wù),比如圖像識(shí)別、語音交互等功能,響應(yīng)速度和隱私安全性都有了提升。這個(gè)優(yōu)化方案的推出,能有效打破邊緣AI設(shè)備的內(nèi)存瓶頸,推動(dòng)多模態(tài)AI應(yīng)用在工業(yè)、消費(fèi)電子等領(lǐng)域的普及。比如智能攝像頭可以在本地運(yùn)行大模型,實(shí)現(xiàn)更精準(zhǔn)的實(shí)時(shí)分析;工業(yè)機(jī)器人能通過端側(cè)AI提升自主決策能力,減少對(duì)云端的依賴。根據(jù)IDC的最新報(bào)告,2024年全球邊緣計(jì)算市場(chǎng)規(guī)模預(yù)計(jì)會(huì)達(dá)到227億美元,年復(fù)合增長率為19.2%,其中邊緣AI是核心增長動(dòng)力。英偉達(dá)這次發(fā)布的優(yōu)化方案,會(huì)進(jìn)一步鞏固它在邊緣AI硬件領(lǐng)域的領(lǐng)先地位。最近,行業(yè)里的競(jìng)爭(zhēng)對(duì)手在邊緣AI內(nèi)存優(yōu)化領(lǐng)域也動(dòng)作不斷:高通推出了針對(duì)驍龍平臺(tái)的AI內(nèi)存優(yōu)化技術(shù),通過動(dòng)態(tài)內(nèi)存管理和模型壓縮結(jié)合來提升端側(cè)性能;谷歌更新了Edge TPU軟件工具鏈,支持更低精度的模型量化,以適配邊緣設(shè)備的內(nèi)存限制。這些做法說明,內(nèi)存優(yōu)化已經(jīng)成為邊緣AI競(jìng)爭(zhēng)的關(guān)鍵領(lǐng)域。






快報(bào)