NPU 相比 CPU 和 GPU,有大量專門進行大矩陣乘法和卷積運算的 AI Core

ASIC 思想下的 AI 芯片作為一種專用處理器,通過在硬件層面優(yōu)化深度學習算法所需的大矩陣乘法、張量運算、卷積運算等關鍵運算,可以顯著加速 AI 應用的執(zhí)行速度,降低功耗。與在通用 CPU 上用軟件模擬這些運算相比,AI 芯片能帶來數(shù)量級的性能提升。因此,AI 芯片已成為如今大模型訓練和推理的關鍵載體。

AI 專用處理器的發(fā)展最早可以追溯到 2015 年。2015 年 6 月,谷歌 I/O 開發(fā)者大會上推出第一代神經(jīng)網(wǎng)絡計算專用芯片 TPU,專門用于加速 TensorFlow 框架下的機器學習任務。區(qū)別于 GPU,谷歌 TPU 是一種 ASIC 芯片方案,一般來說 ASIC 芯片開發(fā)時間長、研發(fā)成本高,服務于專用計算,實現(xiàn)的下游任務較為固定和狹窄。此后,谷歌又陸續(xù)推出了多個 TPU 系列產(chǎn)品,不斷優(yōu)化其架構(gòu)和性能。

終端推理側(cè)的AI芯片:AI Phone的關鍵能力

盡管 AI 芯片的種類、實現(xiàn)的任務和部署形態(tài)多樣且復雜,但其功能最終可以歸結(jié)為兩種:訓練和推理。

在訓練階段,AI 芯片需要支持大規(guī)模的數(shù)據(jù)處理和復雜的模型訓練。這需要芯片具有強大的并行計算能力、高帶寬的存儲器訪問以及靈活的數(shù)據(jù)傳輸能力。NVIDIA 最新的 H100 GPU、華為昇騰 Ascend NPU、谷歌 TPU 等專門為 AI 訓練設計的芯片,擁有超強的計算能力、超大顯存和極高的帶寬,能夠處理海量數(shù)據(jù),特別適合訓練類似 GPT 等大語言模型。

在推理階段,AI 芯片需要在功耗、成本和實時性等方面進行優(yōu)化,以滿足不同應用場景的需求。云端推理通常對性能和吞吐量要求較高,因此需要使用高性能的  AI 芯片,邊緣和端側(cè)推理對功耗和成本更加敏感,因此需要使用低功耗、低成本的 AI 芯片,如專門為桌面、移動和嵌入式設備設計的 NPU等。

英特爾最新的酷睿 Ultra 旗艦處理器,基于 x86 平臺的異構(gòu)AI計算,集成的 GPU 和 NPU 性能越來越高。高通和 MediaTek 最新的高端移動處理器,針對不同任務的 AI 計算加速,整個 SoC 微架構(gòu)上,NPU 的重要性也越來越突出。

相較于訓練芯片在云端成為某種“基礎設施”,端側(cè)的推理芯片則站在了 AI 應用的前沿。將訓練好的模型為現(xiàn)實世界提供智能服務,特別是目前已經(jīng)成為“個人信息Hub”的手機終端,某種意義上已經(jīng)成為了普通人新生長出來的器官,當大模型與手機融合,不依賴網(wǎng)絡和云端算力就能讓手機具備大模型能力,AI Phone 的商業(yè)想象力巨大。

高通 VS MediaTek ,最新的移動旗艦芯片

大模型推理正在向手機、PC、智能汽車等終端滲透。但是,在終端部署 AI 大模型時,仍面臨著多模態(tài)模型壓縮、存儲與計算瓶頸、數(shù)據(jù)傳輸帶寬限制、模型 always-on 設備功耗和發(fā)熱、軟硬件聯(lián)合調(diào)優(yōu)等多重挑戰(zhàn)。特別是在手機端,芯片必須在保證高性能的同時,盡量降低功耗,這要求芯片設計在硬件架構(gòu)和算法加速技術上進行優(yōu)化,以提高計算效率并減少能源消耗。

以高通最新的驍龍旗艦芯片為例,“為了實現(xiàn)更快的 AI 推理性能,高通提升了所有(AI計算)加速器內(nèi)核的吞吐量,還為標量和向量加速器增加了更多內(nèi)核,滿足增長的生成式AI運算需求,尤其是面向大語言模型(LLM)和大視覺模型(LVM)用例,以在處理過程中支持更長的上下文。至于大眾關心的能耗,高通這次將每瓦特性能提高 45%。終端更加高效,不需要大量消耗電池續(xù)航。”

根據(jù)高通的官方描述:高通最新的旗艦移動芯片,驍龍 8 至尊版首次采用了一系列領先技術,包括第二代定制的高通 Oryon CPU、全新切片架構(gòu)的高通 Adreno GPU 和增強的高通Hexagon NPU,能夠為用戶帶來終端體驗的全面革新。作為高通迄今為止最快的CPU,Oryon CPU 擁有 2 個主頻高達 4.32GHz 的超級內(nèi)核和 6 個主頻 3.53GHz 的性能內(nèi)核。其單核性能和多核性能相比前代均提升了 45%,瀏覽器性能提升了 62%,可為大量的多任務處理、飛速網(wǎng)頁瀏覽和疾速游戲響應體驗提供強大的性能和能效支持。同時,驍龍8至尊版還支持高達 10.7Gbps 速率的 LPDDR5X 內(nèi)存,為用戶帶來更為豐富的終端側(cè) AI 使用體驗。

基于全新的高通 Hexagon NPU,驍龍 8 至尊版首次支持終端側(cè)個性化多模態(tài) AI 助手,能夠賦能規(guī)模更大且更加復雜的多模態(tài)生成式 AI 用例在終端側(cè)高效運行。在處理器上,高通 Hexagon NPU 增加了額外內(nèi)核,擁有 6 核向量處理器和 8 核標量處理器,能夠進一步滿足生成式 AI 運算不斷增長的需求。

得益于在軟件上的不斷優(yōu)化、Hexagon NPU 新增的處理器核心以及多模態(tài)模型,驍龍 8 至尊版能實現(xiàn)更快的 AI 處理速度。其 AI 性能提升了 45%,每瓦特性能提升 45%,并支持 70+ tokens/sec 的輸入,用戶可以上傳更大的文檔、音頻和圖像,讓手機在處理復雜任務時能夠更加游刃有余。

有了全新 Hexagon NPU 的支持,無論是在拍照時的智能識別與優(yōu)化,還是游戲中的實時渲染與計算,驍龍 8 至尊版都能為用戶提供強大的 AI 引擎支持,幫助用戶能夠隨時隨地開啟靈感世界,創(chuàng)造無限可能。在影像處理能力上,通過 AI-ISP 和 Hexagon NPU 的深度融合,驍龍 8 至尊版可帶來突破性的拍攝體驗,讓用戶在拍照時得到更多的AI加持,其支持 4.3GP/s 像素處理能力,數(shù)據(jù)吞吐量相比上代提升了 33%,能夠支持三個 4800 萬像素圖像傳感器同時進行 30fps 視頻拍攝。

驍龍 8 至尊版支持無限語義分割功能,可以對圖像進行超過 250 層語義識別和分割,針對性優(yōu)化圖像中的每個細節(jié)。在無限語義分割基礎上,驍龍 8 至尊版的實時皮膚和天空算法可以利用 Hexagon NPU 來識別光線條件并進行修圖,即使在光線條件不足的情況下,也能拍出具有自然效果的皮膚和天空色調(diào)。

基于Hexagon NPU,驍龍8至尊版還支持實時 AI 補光技術,讓用戶即使在近乎黑暗的環(huán)境下,也能生動記錄 4K 60fps 的視頻。在視頻通話或者直播時遇到背光情況,實時 AI 補光技術仿佛增加了一個虛擬的可移動光源,讓用戶時刻都能展現(xiàn)自己美好的一面。在強大算力的支持下,驍龍 8 至尊版還支持視頻魔法擦除功能,用戶可以直接在視頻中選擇需要擦除的對象將其消除,而無需將視頻上傳到云端。

此外,驍龍 8 至尊版還擁有 AI 寵物拍攝套件,能夠清晰記錄萌寵們“放飛自我”的調(diào)皮時刻,無論是快速奔跑還是嬉戲打鬧,都能被精準捕捉。

在高通發(fā)布驍龍 8 之前,多年蟬聯(lián)手機移動芯片市場份額第一的 MediaTek,也在最新的天璣 9400 旗艦芯集成 MediaTek 第八代 AI 處理器 NPU 890,在其支持下,天璣 9400 支持時域張量(Temporal Tensor)硬件加速技術、端側(cè)高畫質(zhì)視頻生成技術,賦能端側(cè)運行 Stable Diffusion 的性能提升了 2 倍,不僅能夠?qū)崿F(xiàn)高分辨率生圖,更支持端側(cè)動圖和視頻生成,實現(xiàn)更多新玩法。

根據(jù) MediaTek 官方描述:天璣 9400 擁有強悍的端側(cè)多模態(tài) AI 運算性能,處理能力高達 50 tokens/秒;運行各種主流大模型,平均功耗可節(jié)省 35%,為手機終端用戶帶來更智慧、更省電的 AI 智能體互動。隨著大語言模型能力的提升,智能體多輪對話與復雜場景的判斷需求越來越重要。天璣 9400 已能支持到至高 32K tokens 的文本長度,是上一代的 8 倍!為了強化端側(cè)模型的數(shù)據(jù)安全和個人隱私作用,MediaTek 天璣 9400 支持端側(cè) LoRA 訓練,不用傳資料上云,每位用戶在端側(cè)就可以安心享受實時的個性化訓練與生成,還可用個人照片創(chuàng)建各種畫風的數(shù)字形象,并更換各種姿勢和背景,讓隱私更安全。

AI Phone算力芯片的關鍵指標:Prefill階段首Token延遲,以及Decoding階段Token生成速率

無論云端模型還是端側(cè)大模型,本質(zhì)是“一堆參數(shù)”。手機終端執(zhí)行大模型推理的過程:用戶輸入文本(提示詞,也即常說的 Prompt)編碼轉(zhuǎn)化為向量,內(nèi)存加載參數(shù),激活參數(shù)執(zhí)行 AI 計算,輸出向量解碼。
大模型推理的基本流程,用戶提供一個 prompt(提示詞),手機運行的推理框架根據(jù)輸入的提示詞生成回答。推理過程通常分為兩個階段:prefill 階段和 decoding 階段。在 Prefill 階段,內(nèi)存加載模型參數(shù),推理框架接收用戶的提示詞輸入,然后執(zhí)行模型參數(shù)計算,直到輸出第一個 token。這個階段只運行一次,耗時較長。

接下來是 Decoding 階段,這個階段是一個自回歸的過程,每次生成一個 token。具體來說,它會將上一時刻的輸出 token 作為當前時刻的輸入,然后計算下一時刻的 token。如果用戶的輸出數(shù)據(jù)很長,這個階段就會運行很多次。Decoding 階段的 Token 吞吐率,即常說的推理速度 XXToken/sec。

如何評價不同品牌的AI Phone 的大模型運行性能的優(yōu)劣?運行同樣參數(shù)尺寸(比如3B)的端側(cè)模型,模型的“知識密度”相同的情況下,Prefill 階段的首 Token 延遲,以及 Decoding 階段 Token 生成速率是兩個最直觀的指標,它直接反饋一款AI Phone運行大模型是否流暢,用戶體驗感知最明顯。當然 AI Phone 運行模型時的內(nèi)存占用壓縮,量化精度損失,AI Phone 運行的多模態(tài)模型和文本基座模型本身的性能和功能,模型層的優(yōu)劣影響也是決定性的。一個高效壓縮、功能全面、性能強悍、跨算力平臺兼容性好的端側(cè)模型,還沒有公認的最強者。

目前,AI Phone 算力芯片支持的推理框架,適配優(yōu)化支持的模型種類和數(shù)量,正在肉眼可見的增長和繁榮。端側(cè)模型運行在不同終端,針對不同 ASIC 芯片 NPU 的兼容,進行 AI 計算硬件加速和調(diào)度優(yōu)化的空間還非常大,這是一個涉及終端廠商、芯片廠商、模型廠商三方的生態(tài)構(gòu)建。誰能提前布局,不辭辛勞更多做幕后看不到的“有用功”,大模型時代它一定獲得市場的“加速”。

本文系作者 X研究媛 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

12:28

摩根大通和高盛向?qū)_基金提供做空私募信貸的工具

12:26

OpenAI再出手:計劃收購Python工具初創(chuàng)公司Astral

12:18

長達一年看空后,摩根大通宣布:戰(zhàn)術性轉(zhuǎn)為看漲美元

12:13

消息人士:馬斯克團隊采購光伏設備預計將在5月第一周發(fā)貨

12:11

也門胡塞武裝稱可能封鎖曼德海峽

12:10

港股午評:科指大跌1.71%,小米、阿里領跌,黃金股反彈

11:55

高盛:預計英國央行今年不降息,明年逐步降至3%

11:54

星網(wǎng)宇達:因投資收益列報錯誤收監(jiān)管函

11:53

港股黃金股反彈,靈寶黃金、紫金黃金國際漲超7%

11:48

工商銀行提醒做好貴金屬市場風險防控

11:46

港股光伏太陽能板塊走強,鈞達股份拉升漲超10%

11:45

特斯拉計劃采購中國光伏設備?企業(yè)回應:確有此事

11:43

A股午評:創(chuàng)業(yè)板指半日漲3.3%刷新年內(nèi)新高,光伏、CPO概念股爆發(fā)

11:31

島上供電能力超4倍增長,220千伏潿洲島跨海聯(lián)網(wǎng)工程投運

11:30

創(chuàng)業(yè)板指刷新階段高點

11:23

儲能概念持續(xù)走強,首航新能、德業(yè)股份漲停續(xù)創(chuàng)歷史新高

11:19

創(chuàng)業(yè)板指漲逾3%,寧德時代等權(quán)重股大幅走高

11:15

中國人均體育場地面積達3.11平方米

11:14

美國白宮據(jù)稱不會實施原油出口禁令

11:12

漲勢持續(xù),深圳華強北16G內(nèi)存半年多漲700元左右

掃描下載App