這個技術細節(jié),某種程度上揭示了語音交互賽道的獨特競爭邏輯。不同于視頻生成、代碼生成等領域可以用算力和資本直接碾壓,語音交互的長尾場景極其復雜且難以標準化,AI陪伴兒童玩具需要“像幼兒園老師一樣溫暖”;AI陪伴男友既需要霸總的聲音,也需要青春男生的聲音。“可以說一個 AI 陪伴男友需要 100 多個性格迥異的虛擬聲音。”梅杰透露,你很難用一個通用模型同時滿足幼教的親和力和情感陪伴的細膩度。
這些長尾需求,豆包、千問、MiniMax 等大廠的通用模型大約能覆蓋 60%,剩下 40% 的市場需要深度定制。但從機會成本看,大廠不會為單一的客戶需求投入更多資源。
在他們眼中,語音業(yè)務遠不如推理、視頻生成等十億美金級別的產品重要。這個空白地帶,正是 VUI Labs 看到的機會。
2026 年初,這家成立僅一年的公司完成數(shù)千萬元天使+輪融資,由同創(chuàng)偉業(yè)領投,老股東靖亞資本、小苗朗程持續(xù)加注。這家公司半年內累計融資近億元。創(chuàng)始人梅杰是連續(xù)創(chuàng)業(yè)者,浙大竺可楨學院創(chuàng)新與創(chuàng)業(yè)管理強化班校友。聯(lián)合創(chuàng)始人錢彥旻是上海交大計算機學院特聘教授、教育部長江學者,其團隊早在 2019 年就在全球首次提出端到端語音模型訓練方案。
VUI Labs 基于千問等開源大模型重新構建端到端語音對話模型,針對客戶長尾場景做深度定制,從數(shù)據(jù)管線中“反直覺”的噪聲處理,到算法層面融合 Transformer與卷積神經網絡、借鑒腦科學的情感計算,再到推理層面的延時優(yōu)化,每一層都在解決大廠通用模型“最后 40%”的問題。
目前,VUI Labs 已與榮耀、紫光展銳、印象筆記等頭部客戶達成合作。API 平臺推出首月,Luna-TTS模型即實現(xiàn) 200 萬元收入。
在大廠主導的 AI 時代,一家創(chuàng)業(yè)公司如何在語音賽道找到生存空間?端到端模型的技術壁壘究竟在哪里?與巨頭的差異化競爭點是什么?![]()
VUI Labs創(chuàng)始人 梅杰
智客ZhiKer:為什么選擇做情感語音交互方向?
梅杰:選擇做這件事情其實有兩方面因素,一個是市場需求,一個是我們本身的技術儲備積累。
從技術儲備來看,我們的聯(lián)合創(chuàng)始人錢彥旻教授是國內語音領域最優(yōu)秀的科學家之一,也是全球范圍內最早提出端到端語音對話模型的科學家之一,2019 年就發(fā)表了第一篇端到端語音對話模型的論文。這個時間點是非常早的。
為什么情感對話和端到端語音模型密切相關?過去的語音交互,比如天貓精靈、小愛音箱,本質上是指令控制,并沒有真正的智能。
隨著大模型的發(fā)展,AI 有了智能,但在真人對話過程中,除了文本信息,還有大量副語言信息。比如我現(xiàn)在邊思考邊講,中間會夾雜著停頓、語氣變化,甚至話沒說完的情況。這些信息在傳統(tǒng)方案下往往都會被丟失。
更重要的一點是,人在不同的情緒和情感狀態(tài)下,所表達的意思可能完全不同。舉個例子,“你可真行,你可真厲害”,從文本角度看是肯定,但在真實對話中可能是嘲諷。只有在端到端語音交互模型下,才能實現(xiàn)更擬人、更豐富情感的能力,這是我們整個技術路線選擇的出發(fā)點。
智客ZhiKer:從市場角度,你們看到了什么樣的機會?
梅杰:從市場角度來看,現(xiàn)在不管是對話機器人,還是各種 Agent 的應用、具身智能、智能硬件、智能玩具等等,大家對于語音交互的需求是越來越多的,對于體驗的要求也越來越高。
我們有很多客戶,在用上語音交互之后,就希望整個交互能夠更加擬人化、表達更加富有情感。所以從發(fā)展趨勢來講,這是一個非常好的賽道。
智客ZhiKer:多模態(tài)情感交互語音大模型Luna系列跟傳統(tǒng)方案有什么區(qū)別?
梅杰:我們采用的是端到端語音交互架構,而傳統(tǒng)方案是級聯(lián)模型,人說話之后,先用 ASR 把語音轉化成文字,然后把文字交給 LLM 去理解,LLM 輸出文字之后再交給 TTS 合成語音輸出。這個過程會丟失大量信息。
但端到端模型不一樣。我們相當于是在模型訓練的時候,從一開始就把語音信號和文本做了很多對齊的訓練,所以模型是能夠直接理解語音的,不需要經過那個級聯(lián)的轉換。
在超低延時和豐富情感語音交互、豐富情感語音生成、多說話人理解等方面全面對標國內外的一線語音模型廠商,如Google,ElevenLabs,OpenAI,Hume AI和Sesame等。
智客ZhiKer:延時是多少?
梅杰:我們的語音對話延遲只有 1.4 秒,達到了行業(yè)領先水平。
Luna-1 在 VoiceBench 權威測評中取得了 79.05 分,這個分數(shù)是非常高的,緊隨 GPT-4o-Audio 的 86.42 分。
Luna-TTS-1 語音合成模型的延遲更是低至 200 毫秒。
智客ZhiKer:情感識別在技術上是怎么實現(xiàn)的?
梅杰:情感識別主要靠兩個方面,一個是算法,一個是數(shù)據(jù)。
從算法角度,我們的模型里面不只是有 Transformer 架構,還有卷積神經網絡等不同的技術。為什么這么做?因為 Transformer 并不是在所有情況下都是最優(yōu)的。錢教授還參與了國家腦科學計劃,所以有很多算法是借鑒了人腦在處理聲音情感時的計算方式,把過去 20 年的技術積累融入進去了。
從數(shù)據(jù)角度,我們構建了一個專門的語音對話數(shù)據(jù)管線。有一個非常有趣的現(xiàn)象,做其他訓練的時候,比如做代碼或者圖像生成,你可能希望數(shù)據(jù)標注得越清晰越好,把噪音、雜音都去掉。但是在聲音領域不是這樣的,如果你用非常干凈的純語音數(shù)據(jù)去做訓練,模型能力反而不行。
原因是真實的聲音就是在嘈雜的、有各種不確定性的情況下發(fā)生的。你訓練的時候給它太干凈的數(shù)據(jù),等遇到真實場景就不行了。包括喂給它的訓練數(shù)據(jù)的順序,先給什么數(shù)據(jù)、后給什么數(shù)據(jù),都會影響模型的能力。這里面有很多 know-how,是我們的技術壁壘之一。
智客ZhiKer:面對大廠競爭,你們的差異化在哪里?
梅杰:我們并不覺得大廠在語音對話上有壓倒性優(yōu)勢。原因有三點。
第一是人才。語音領域的頂尖人才本身就稀缺。大廠能觸達的人才,我們團隊也有。錢教授在這個領域深耕多年,我們在人才儲備上不輸大廠。
第二是戰(zhàn)略聚焦度。我們只做語音這一件事。而大廠的精力更多放在推理、Coding、視頻生成這些十億美金級別的業(yè)務上。語音對他們來說不是戰(zhàn)略重點。
第三是長尾場景的定制能力,這是最核心的差異化。我們有客戶接了豆包、千問、MiniMax,但從具體場景來說,通用模型只能解決 50%~60%的問題,剩下 40% 解決不了。
舉個例子,AI情感陪伴產品,每個角色都有獨特的音色、聲線、說話風格和語氣。有的要像霸總一樣有力量感,有的要溫柔體貼會撒嬌。通用模型不可能覆蓋這些細分場景。
更關鍵的是,語音數(shù)據(jù)不像圖像數(shù)據(jù)那樣豐富。真實的人與人對話數(shù)據(jù)涉及隱私,互聯(lián)網上根本沒有,大廠也拿不到。這意味著每個客戶的場景都需要用高度相關的數(shù)據(jù)單獨訓練。
大廠不會為了一個客戶,去做這樣的深度優(yōu)化,機會成本太高。但我們不一樣,既然聚焦語音賽道,我們就愿意為客戶需求做數(shù)據(jù)層面的優(yōu)化、模型層面的微調、預訓練和后訓練,最終把需求滿足度從 60% 提升到 80%、90%,甚至 100%。
這就是我們的生存空間,大廠看不上的那 40%,恰恰是我們深耕的價值高地,也是我們不可替代的理由。
智客ZhiKer:商業(yè)模式是怎樣的?
梅杰:商業(yè)模式有三類。
首先是基模的API,我們不會去做深度的項目制開發(fā)。我們的API覆蓋語音領域的全棧模型,包括語音識別、語音合成、聲音克隆、多說話人日志,智能打斷、聲音鑒別、端到端對話等。
其次,TTS模型的個性化研發(fā)和IP分成模式。我們聚焦泛娛樂場景,比如社交、游戲、AI 陪伴、情感陪伴、AI 漫劇、短劇等,這方面我們會給客戶做一些個性化研發(fā)。與合作伙伴聯(lián)合訓練出來的聲線或角色,通過長期分成方式構建商業(yè)模式。不是像以前外包一樣一次性開發(fā)。
第三,語音智能體產品。構建面向C端用戶和B端用戶的VoiceAgent產品。
智客ZhiKer:目前服務了哪些客戶?可以詳細講一個合作案例嗎?
梅杰:我們已經和榮耀、紫光展銳、印象筆記等國內外頭部企業(yè)合作。
跟硬件廠商的合作更偏前端,偏語音交互。我們有一些模型比如識別、抗噪、聲音鑒偽,這些都是偏理解側的。剛才講的 AI 男友是偏生成側,硬件廠商是偏理解側。
舉個例子,我們跟榮耀的合作,我們有一款多模態(tài)語音理解模型,可以用來做實時同聲傳譯。硬件廠商希望在手機端側就能搭載語音通話的同聲傳譯,這樣有幾個好處:第一是隱私性,尤其是是榮耀在歐洲發(fā)布的手機,它們比較強調隱私,很多對話數(shù)據(jù)不會上傳到云端,手機可以用本地模型解決。
榮耀的Case 有幾個核心問題:第一它要求模型是端側部署的Cost 要低;第二又能夠非常好地做多國語言的同聲傳譯;第三它要求保留說話人的說話風格和聲音,相當于我既做翻譯又做克隆,而且都是實時的,又是在設備端側可以直接跑的。
這三個點,當時在那個階段能做得比較好的,國內可能就我們。做了之后,這確實作為他高端折疊屏手機在歐洲市場的一個非常好的用戶體驗提升,因為其他手機品牌沒有,而且到目前為止很多廠商也沒能夠跟進和做這件事情。
智客ZhiKer:聽說你們也推出了 C 端產品?
梅杰:是的,這是我剛才講的,我們在Voice Agent產品上的嘗試。SaySo語音輸入法,直接對標的是美國的 Wispr Flow。![]()
https://www.sayso.ai/
Wispr Flow在海外的月費大概是12 美金,我們定價是 3-5 美金,這款AI語音輸入法主要定位為創(chuàng)作者群體的語音輸入助手。
現(xiàn)在很多創(chuàng)作者傾向于“口述創(chuàng)作”的模式,他們需要捕捉稍縱即逝的靈感,而語音是最快的載體。SaySo 的核心價值,就是用 AI 把這些碎片化的語音流,瞬間梳理成邏輯嚴密的結構化文字。我們要做的,就是讓創(chuàng)作者徹底從繁瑣的整理工作中解放出來。
SaySo產品我們年初剛推出PC 版,移動版正在開發(fā)中。
智客ZhiKer:宇生月伴正在建設的 Voice Agent 平臺是什么?未來的規(guī)劃是什么?
梅杰:Voice Agent 平臺第一階段主要服務創(chuàng)作者,圍繞創(chuàng)作者的全工作流,做更深度的 Agent 能力進化。未來我們也會逐步切入B端市場。
從市場規(guī)劃角度,我們在國內外有不同的策略。國內市場我們主要做 agent 應用,海外市場我們更多推模型能力。
為什么這么規(guī)劃?因為放眼全球,真正能做模型的國家就是中美兩個。但語音交互的需求是全球人都需要的。所以在海外,我們可能會推廣基礎的模型能力;在國內,我們覺得 Agent 應用更有市場,因為國內模型開源加上價格戰(zhàn),競爭很激烈。
智客ZhiKer:在國內做 Agent 應用,是做成獨立的產品還是跟其他 Agent 合作?
梅杰:我們更傾向于做成獨立的產品。因為對于 Voice Agent 平臺來說,獨立應用就是它落地的最佳載體(或者說‘第一入口’)。國內更適合做 C 端市場,C 端市場的話可能需要端到端交付。所以我們更偏向于做一個偏語音交互形態(tài)的 Agent 產品。
至于具體的產品形態(tài),我們有一個從“廣度”到“切入點”的思考邏輯:
從廣度看,語音交互絕對是未來的主流接口。你看從兒童(天然 voice-first)到中老年群體(打字困難),他們對語音有著天然的剛需,這證明了 Voice Agent 的市場天花板極高,是全人群通用的。
但為了把產品做透,我們目前的切入點必須聚焦。既然第一階段服務創(chuàng)作者,我們決定先把“語音輸入”這個最高頻、最剛需的場景做到極致,希望通過這個高頻入口,先把模型能力打磨好,未來再順勢延展到更廣泛的 C 端場景。
智客ZhiKer:公司現(xiàn)在團隊規(guī)模如何?
梅杰:目前大概 20 個人,上海和杭州兩地辦公。上海偏算法,因為離錢教授的實驗室比較近,算法的人上海更多一些;杭州偏工程。
智客ZhiKer:如何看待語音交互市場的未來?
梅杰:我們認為語音交互是未來最大最重要的交互界面。
你回想一下過去幾十年交互界面的演進:從PC時代的鍵盤鼠標交互,到移動互聯(lián)網時代的觸屏交互,未來最大的交互就是語音交互。
隨著 AI 能力的提升,人與軟件交互的邏輯也在發(fā)生變化。過去我們需要先學會“怎么操作軟件”,記很多菜單、按鈕和指令;但未來,人可能只需要表達“我想要什么”。剩下的事情由 AI 去理解、拆解任務,再去執(zhí)行。換句話說,過去我們是在學習怎么用軟件,未來軟件會學會理解人。
把人從很多繁瑣的操作里解放出來。更多地去關注判斷、創(chuàng)意和決策,而把執(zhí)行層面的工作交給 AI。這種交互方式其實會出現(xiàn)在很多場景里,比如軟件 Agent、各種智能終端、機器人、車載系統(tǒng)等等。
從數(shù)據(jù)來看,美國語音交互已經連續(xù)十個季度保持 10%—15%的穩(wěn)定增長。雖然短期沒有像視頻生成那樣爆發(fā),但長期一直在穩(wěn)步增長。這是一個巨大的市場機會。
智客ZhiKer:未來三五年希望 VUI Labs 發(fā)展成什么樣?
梅杰:我們的愿景就是讓 voice user interface 夢想成真。我們希望在未來 VUI 時代,成為最重要的基礎設施公司之一。
從規(guī)模角度,我們預期三年內做到 3000 萬美金的 ARR。我們現(xiàn)在 TTS 產品剛上線第一個月就有 200 萬收入了,整體需求還是很大的。
關鍵是要在這個蓬勃發(fā)展的市場里找到一個精準的定位,既能夠避開巨頭的競爭,又能在這個里面很好地成長起來。
我們希望能夠成為新時代最強的全球化語音交互公司,成為這個新時代的全球化的“科大訊飛”。(作者|郭虹妘,編輯|陶天宇)
更多對全球市場、跨國公司和中國經濟的深度分析與獨家洞察,歡迎訪問
快報
根據(jù)《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論