從人形機器人的靈活操控到工業(yè)機械臂的精準作業(yè),從服務機器人的場景適配到邊緣設備的算力升級,無不預示著“物理AI”時代的加速到來。
2026年開年以來,具身智能領域的市場熱度與資本活躍度持續(xù)攀升,投融資事件密集落地,同時春晚舞臺上多家頭部具身智能領域公司的產(chǎn)品集中亮相,更讓這一賽道從產(chǎn)業(yè)端走向大眾視野,直觀展現(xiàn)了這一年技術(shù)發(fā)展的快速發(fā)展。
當前,具身智能正從概念熱潮向產(chǎn)業(yè)攻堅過渡,邊端側(cè)計算設備則作為其落地的核心載體,迎來架構(gòu)迭代與性能突破的關(guān)鍵期。與單純的虛擬AI不同,具身智能要求實體設備具備“感知-理解-決策-執(zhí)行-反饋”的完整閉環(huán),能夠通過執(zhí)行器改變物理世界并形成動態(tài)調(diào)整,這一特性決定了其對算力、實時性、可靠性的多元需求,也推動著邊端側(cè)計算從“通用化”向“異構(gòu)化”“定制化”轉(zhuǎn)型。
當生成式AI的熱度逐漸沉淀,具身智能憑借“連接虛擬與物理世界”的獨特價值,成為AI產(chǎn)業(yè)下一階段的核心增長點。據(jù)國務院發(fā)展研究中心預測,中國具身智能2030年達4000億元人民幣,2035年突破萬億元。與此同時,中國信通院《具身智能發(fā)展報告(2025年)》中,首次將具身智能納入國家未來產(chǎn)業(yè)重點,2025年全球市場規(guī)模195.25億元人民幣。
但熱鬧的市場背后,是產(chǎn)業(yè)落地的諸多現(xiàn)實瓶頸。英特爾研究院副總裁、英特爾中國研究院院長宋繼強明確指出:“當前具身智能的發(fā)展,正處于‘提升能力上限’與‘保障能力下限’的雙重攻堅期。大家都在展示機器人的智能能力,但很少有人關(guān)注它表現(xiàn)不佳時該怎么辦——這正是產(chǎn)業(yè)化必須跨越的鴻溝”。
當前具身智能的產(chǎn)業(yè)現(xiàn)狀呈現(xiàn)“熱度高、落地難、痛點集中”的特點,而異構(gòu)計算作為破解痛點的核心思路,逐漸成為行業(yè)共識。
具身智能的核心是將智能能力與實體設備結(jié)合,讓設備能夠感知外界、理解環(huán)境、做出決策,并通過執(zhí)行器改變物理世界,最終形成“決策-執(zhí)行-反饋”的閉環(huán)。在宋繼強看來,如果只是播放視頻、發(fā)送語音,這些不算具身智能,“具身智能的核心必須能對物理世界產(chǎn)生實際影響。”宋繼強強調(diào)。
這一定義清晰劃分了具身智能與傳統(tǒng)AI的邊界:傳統(tǒng)AI多局限于虛擬場景的信息處理,而具身智能則強調(diào)“物理交互”與“閉環(huán)能力”。例如,一輛能將人從A點運到B點的自動駕駛汽車、一臺能完成物流分揀的移動機器人、一架能實現(xiàn)物資運送的無人機,都屬于具身智能的范疇;而單純的語音助手、圖像識別系統(tǒng),則不屬于這一領域。
近年來,隨著多模態(tài)大模型、視覺-語言-動作模型(VLA)、世界模型等技術(shù)的突破,具身智能的產(chǎn)業(yè)熱度持續(xù)攀升。根據(jù)Gartner 2024年發(fā)布的《新興技術(shù)成熟度曲線》報告,生成式AI已越過“期望膨脹期”頂峰,而自主AI系統(tǒng)(Autonomous AI)作為其延伸方向,正推動人形機器人、具身智能體等進入該階段的中后期。
2026年開年以來,具身智能領域的市場熱度與資本活躍度持續(xù)攀升,投融資事件密集落地,同時今年春晚舞臺上宇樹科技、松延動力、魔法原子、銀河通用等多家頭部具身智能領域公司的產(chǎn)品集中亮相,更讓這一賽道從產(chǎn)業(yè)端走向大眾視野,直觀展現(xiàn)了技術(shù)落地的階段性成果。
從投融資動態(tài)來看,2026年以來具身智能領域融資熱度持續(xù)升溫,資本布局呈現(xiàn)“大額融資集中、頭部企業(yè)凸顯、多資本類型參與”的特點。
2月24日,具身智能頭部企業(yè)千尋智能宣布連續(xù)完成兩輪近20億元融資,創(chuàng)下2026年以來該領域融資新高,投資方涵蓋云鋒基金、混沌投資等一線機構(gòu),TCL創(chuàng)投等產(chǎn)業(yè)資本,以及重慶、杭州等地國有資本,老股東也持續(xù)加碼,本輪融資后其估值突破百億元,將重點投入具身基礎模型與真實數(shù)據(jù)體系建設。在此之前,月23日,全球機器人基礎模型龍頭企業(yè)智平方完成B輪超10億元融資,估值超百億,投資方包括百度、中國中車等多方力量,近一年內(nèi)該企業(yè)已累計完成12輪融資,成為全球融資節(jié)奏最快的具身智能企業(yè)。
此外,2月11日星海圖完成近10億元B輪融資,2月10日商湯科技旗下大曉機器人完成天使輪融資,據(jù)不完全統(tǒng)計,2026年1月份全球具身智能及人形機器人領域融資事件超20起,披露融資總額超160億元,同時埃斯頓、宇樹科技、樂聚機器人等企業(yè)正籌備IPO,計劃2026年沖刺資本市場,資本的持續(xù)注入為產(chǎn)業(yè)技術(shù)攻堅提供了有力支撐。
盡管產(chǎn)業(yè)熱度高漲,但當前具身智能的落地仍面臨諸多痛點,其中準確性、可靠性、數(shù)據(jù)孤島三大問題最為突出,成為制約其從“演示”走向“實用”的關(guān)鍵瓶頸。
首先是準確性不足的問題,這也是當前VLA模型的核心短板。VLA作為具身智能的核心技術(shù)之一,能夠?qū)崿F(xiàn)“視覺輸入-語言理解-動作輸出”的端到端映射,但目前其性能仍有較大提升空間。對此,宋繼強表示,當前主流VLA模型的任務準確率僅為60%-70%,離工業(yè)級可用的99%以上準確率還差幾十個點。而且它的泛化能力很差,視覺場景發(fā)生輕微變化——比如物體顏色、形狀、相對位置的改變,如果沒有在訓練數(shù)據(jù)集中出現(xiàn)過,就很難外推到位。
其次是可靠性與安全性的雙重挑戰(zhàn)。具身智能設備多在與人、工業(yè)環(huán)境交互的場景中運行,其可靠性與安全性直接關(guān)系到人員安全與生產(chǎn)效率。宋繼強告訴筆者,具身智能的可靠性,至少體現(xiàn)在三個層級:第一,規(guī)劃決策是否可信賴;第二,動作執(zhí)行是否可信賴;第三,系統(tǒng)出錯時整體是否仍可靠,“當前很多具身智能設備,在這三個層級都存在短板。”宋繼強指出。
具體來看,在規(guī)劃決策層,基于神經(jīng)網(wǎng)絡的大模型、VLA模型存在“黑盒問題”與“幻覺問題”,難以保證決策的可解釋性與準確性。例如,機器人可能會因為模型幻覺,將“拿起杯子”的指令誤解為“打碎杯子”;在動作執(zhí)行層,當前很多機器人的運動控制精度不足,難以完成高精度作業(yè)——比如讓機器人往左走15cm,實際可能偏差3-5cm;在系統(tǒng)容錯層,大部分具身智能設備缺乏完善的安全機制,一旦出現(xiàn)硬件故障或軟件錯誤,就可能陷入癱瘓,甚至引發(fā)安全事故。
此外,具身智能的安全性還面臨“傳統(tǒng)信息安全+AI安全+物理安全”的三重威脅。宋繼強解釋道,“以前的智能設備,只需要關(guān)注傳統(tǒng)的信息安全問題;但具身智能設備引入了AI模型,就需要應對針對AI的攻擊——比如模型投毒、對抗樣本攻擊;同時,它與人、環(huán)境交互,還存在物理安全問題,比如機器人操作失誤傷人、設備故障導致生產(chǎn)中斷等。更關(guān)鍵的是,安全都是額外成本,如何在安全級別與成本之間找到平衡,也是行業(yè)需要解決的問題。”
第三是數(shù)據(jù)孤島與數(shù)據(jù)短缺問題。具身智能的發(fā)展高度依賴數(shù)據(jù)——VLA模型、世界模型的訓練,都需要大量的場景數(shù)據(jù)、動作數(shù)據(jù)、交互數(shù)據(jù),但當前行業(yè)面臨著“數(shù)據(jù)采集難、數(shù)據(jù)不標準、數(shù)據(jù)孤島嚴重”的困境。對此,宋繼強表示,數(shù)據(jù)是當前具身智能發(fā)展的首要問題,尤其是對VLA+世界模型這條路徑而言,“VLA與環(huán)境、動作場景、機器人本體都密切相關(guān),需要專門的數(shù)據(jù)支撐訓練,但現(xiàn)在的數(shù)據(jù)采集面臨很多難題。”宋繼強補充道。
具體來看,數(shù)據(jù)采集的難點主要體現(xiàn)在四個方面:
面對準確性、可靠性、數(shù)據(jù)短缺等多重痛點,行業(yè)逐漸形成一個核心共識:異構(gòu)計算是具身智能落地的核心基石。對此,宋繼強強調(diào):“具身智能一定落在物理實體之上,這個實體包含感知、理解與決策、推動執(zhí)行、反饋觀察的完整閉環(huán),不同環(huán)節(jié)對計算能力的要求不同——有的需要高通量算力,有的需要低時延響應,有的需要高精度浮點運算,很難用同一種硬件解決所有問題,底層必然需要異構(gòu)計算。”
所謂異構(gòu)計算,就是將不同架構(gòu)的計算單元(CPU、GPU、NPU、AI ASIC、神經(jīng)形態(tài)加速器等)結(jié)合起來,根據(jù)不同任務的需求,分配相應的計算資源,實現(xiàn)“算力適配任務”的最優(yōu)效果。與傳統(tǒng)的同構(gòu)計算相比,異構(gòu)計算具有能效比高、實時性強、靈活性好等優(yōu)勢,能夠完美匹配具身智能多環(huán)節(jié)、多需求的算力要求。
從具身智能的任務鏈路來看,不同環(huán)節(jié)對算力的需求差異顯著,這也決定了異構(gòu)計算的必要性。針對此,宋繼強提出了“系統(tǒng)2-系統(tǒng)1-系統(tǒng)0”的三層決策鏈路,并詳細闡述了各層的算力需求:
系統(tǒng)2是“慢系統(tǒng)”,主要負責場景理解與任務規(guī)劃,與語言邏輯抽象層相關(guān),輸出語義層級更高、準確度更高的結(jié)果,比如VLM模型(視覺語言模型)就屬于這一層。這一層需要處理高通量的視覺輸入與語言輸入,對算力的吞吐量要求較高,GPU是最適合的計算單元——例如英特爾酷睿Ultra處理器中的GPU,能夠高效處理多模態(tài)數(shù)據(jù),支撐大模型的推理與訓練。
系統(tǒng)1是“動作專家”(Action Expert),主要負責將系統(tǒng)2的規(guī)劃任務,映射到具身設備的執(zhí)行器(關(guān)節(jié)電機、輪子等),生成控制指令,輸出頻率約為200Hz。這一層對實時性、低功耗的要求較高,同時需要支持矩陣向量運算,NPU(神經(jīng)網(wǎng)絡處理單元)是最優(yōu)選擇。宋繼強透露:“英特爾酷睿Ultra處理器內(nèi)置的NPU,能夠?qū)崿F(xiàn)11TOPS@~2W的能效比,在PTL平臺上更是能達到50 TOPS,完全能夠滿足系統(tǒng)1的算力需求。”
系統(tǒng)0是傳統(tǒng)的MPC控制器(模型預測控制),主要負責將系統(tǒng)1的控制指令,提升到更高的頻率(超過1000Hz),實現(xiàn)動作的平滑、精準執(zhí)行,解決動作頓挫的問題。這一層對實時性與浮點計算精度的要求極高,CPU是核心計算單元——英特爾酷睿Ultra的CPU,能夠?qū)崿F(xiàn)10us以內(nèi)的實時響應,滿足高精度運動控制的需求。
“在具身智能的任務鏈路中,CPU、GPU、NPU各司其職、協(xié)同工作,才能實現(xiàn)最優(yōu)的性能與能效比。”宋繼強表示,“比如‘拿起筆,把它插進筆帽里’這個簡單的任務,系統(tǒng)2的VLM模型理解指令(GPU支撐),系統(tǒng)1的Action Expert生成動作軌跡(NPU支撐),系統(tǒng)0的MPC控制器將動作頻率提升到1000Hz(CPU支撐),三者協(xié)同,才能完成精準、平滑的操作。”
除了任務鏈路的適配,異構(gòu)計算還能解決具身智能的可靠性與可擴展性問題。智能體的構(gòu)建的是通過編排器自動完成的,而不是預先編程,這就需要編排器能夠調(diào)用不同的智能體功能,而異構(gòu)框架能夠提供靈活的資源調(diào)度能力,支撐多智能體系統(tǒng)的運行。同時,異構(gòu)計算能夠隔離不同的計算任務,比如將實時性要求高的運動控制任務,與實時性要求低的AI推理任務隔離開來,避免相互干擾,提升系統(tǒng)的可靠性。
從概念熱潮到產(chǎn)業(yè)攻堅,從技術(shù)驗證到小規(guī)模落地,具身智能的發(fā)展,正迎來前所未有的機遇與挑戰(zhàn)。邊端側(cè)計算設備的異構(gòu)集成、工業(yè)級升級與邊端云協(xié)同,為具身智能的落地提供了堅實的算力支撐;異構(gòu)計算的普及、AI模型的優(yōu)化與軟件生態(tài)的完善,為具身智能的技術(shù)突破提供了核心動力;而場景驅(qū)動、生態(tài)協(xié)同、標準統(tǒng)一,則為具身智能的規(guī)模普及指明了清晰的路徑。(文|Leo張ToB雜談,作者|張申宇,編輯丨蓋虹達)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論