左 Google Pixel phone,右 Pixel Buds | Alex Dobie 博客

彼時國內(nèi)同樣掀起了一波人工智能創(chuàng)業(yè)浪潮,翻譯領(lǐng)域自然也不乏軟、硬件科技巨頭推陳出新、試圖解決用戶跨語種交流問題。網(wǎng)易有道、百度翻譯陸續(xù)采用新的技術(shù)路線迭代自家翻譯引擎;被譽為“中國語音產(chǎn)業(yè)第一股”的科大訊飛,也于 2016 年年底推出了旗下首款消費級翻譯硬件——訊飛翻譯機,并迅速成為市場上的明星產(chǎn)品。

2017 年,一家位于深圳的智能硬件初創(chuàng)公司,更進(jìn)一步提出“翻譯耳機” 概念,嘗試“把翻譯軟件直接裝入耳機”,讓用戶實現(xiàn)跨語言自由交流的目標(biāo)。項目在北美科技眾籌平臺 Kickstarter 上冷啟動,以并不算便宜的價格(超級早鳥價 99 美元),一舉收獲了 1640 位支持者。這就是如今 AI 同傳耳機頭部品牌——Timekettle 時空壺的起點。

圖:時空壺初代產(chǎn)品眾籌頁

幾乎每個跨語言交流場景,都有了專屬的“AI 翻譯官”

短短幾年,科技飛速發(fā)展,日常工作、生活中的大部分難題,似乎都有了產(chǎn)品化的解法,跨語言交流自然也不例外。大語言模型的出現(xiàn),讓普通消費者需要翻譯技能的每一個高頻場景,都有了專屬的“翻譯官”。

翻譯工種的分類,幾個核心要素,一是準(zhǔn)確性、二是即時性、三是結(jié)果展現(xiàn)的方式。

以作者曾經(jīng)從事的文本翻譯和聽譯工作為例,兩者的共同點,一是對“即時性”要求不高,工作時間相對充裕;二是都不涉及“開口講”,只需要把原文本、音視頻內(nèi)容,用另一種語言文字準(zhǔn)確轉(zhuǎn)述出來即可。這也是普通消費者日常工作、生活中最常見的場景,包括瀏覽外文資料、網(wǎng)站,看外文影視節(jié)目等等。

通用文本的翻譯,目前最佳解決方案,毫無疑問就是大語言模型,以及集成了大語言模型的翻譯引擎本身。ChatGPT、DeepSeek、元寶、豆包……現(xiàn)在任何一個大模型的文本翻譯質(zhì)量,基本上都達(dá)到了拿來就用的水平;谷歌、微軟 Edge 等主流瀏覽器也提供類似于“翻譯此頁面”這樣更大眾化的功能,為用戶瀏覽外文網(wǎng)站掃除障礙;外文影音內(nèi)容的翻譯,則幾乎從“源頭”上得到了解決——市場上主流的視頻編輯類產(chǎn)品,幾乎把“匹配字幕”、“字幕翻譯”做成了標(biāo)配功能,有的甚至還免費。卡點依然在法律、金融、醫(yī)療等對準(zhǔn)確度和專業(yè)性要求極高的垂直領(lǐng)域,作者就聽說過“花 5 萬塊買了一套 AI 智能合同審核工具,結(jié)果還得靠人工”的案例。

而常見的“聽譯”類產(chǎn)品,已經(jīng)被廣泛集成在了各類視頻會議、協(xié)同辦公軟件中,以語音轉(zhuǎn)寫、會議紀(jì)要、實時字幕等形式出現(xiàn),例如騰訊會議中的“字幕和轉(zhuǎn)寫”,飛書“妙記”的實時字幕功能。就我個人使用體驗來看,語音識別的準(zhǔn)確度,也就是“聽”的問題,反而比“譯”的問題要大得多。

圖:騰訊會議和飛書妙記集成的實時翻譯功能

在更專業(yè)、更正式、對于“即時性”要求也更高的視聽場景,例如公開演講、大會論壇,很多會議主辦方會將外文演講者的發(fā)言,以實時翻譯字幕的形式,投放到會場顯示屏上,同步呈現(xiàn)給聽眾。據(jù)作者最近幾次參會的切身體驗,AI 實時翻譯的專業(yè)性、準(zhǔn)確性已經(jīng)非常高了,當(dāng)然也有可能跟預(yù)置了專業(yè)詞庫、甚至內(nèi)部預(yù)訓(xùn)練了垂直領(lǐng)域模型有關(guān)。

圖:Meta 電商海外營銷峰會現(xiàn)場,嘉賓用英文演講,大屏幕右側(cè)以中文同步展示中文字幕

總之,我曾經(jīng)賴以謀生的飯碗,可以說是被 AI 砸得七七八八了,也不知當(dāng)年合作過的翻譯公司和同行小伙伴們是否還安好。

從“對講機”到“自由交流”,AI “嘴替”還在進(jìn)化

在以上提到的各類場景中,用戶更多還是單方面的“接收”信息,而在需要“開口講外語”的場景,就涉及到更高階的翻譯技能——交替?zhèn)髯g和同聲傳譯。

交替?zhèn)髯g大多出現(xiàn)在外交會晤、外貿(mào)洽談等場景,就像我們常在電視里看到的那樣,A 講話人講一段,停下來,譯員翻譯給 B 講話人;B 講話人回復(fù),譯員再翻譯給 A 講話人,也就是講話人和譯員“交替”說話。

圖:意大利總理梅洛尼與美國總統(tǒng)特朗普會面,兩人身側(cè)是雙方譯員 | 來源:新聞

同聲傳譯則常見于高端會議、一對多發(fā)言的場景,講話人幾乎不需要特意停頓,譯員通過專業(yè)設(shè)備收音(除去講話人聲音之外的雜音),最多延遲幾秒,即開始同步翻譯,聲音再通過麥克風(fēng),傳遞到現(xiàn)場佩戴同傳耳機的觀眾耳朵里。

圖:聯(lián)合國總部的全職同聲翻譯 CHEN JI |來源:CHEN JI 的 YouTube 頻道

過去的同聲傳譯,需要最高級別的專業(yè)翻譯人才,輔以昂貴的專業(yè)設(shè)備提供支持。這里的同傳設(shè)備,主要解決的是通信問題,而非“翻譯”工作本身。而當(dāng)下火熱的 AI 翻譯耳機賽道,試圖攻克的,就是把同聲傳譯這項技能,從少數(shù)“高端場景”釋放,真正拉入到普通消費者的日常工作、生活場景中。

經(jīng)過 7、8 年的技術(shù)攻堅和產(chǎn)品迭代,AI 翻譯耳機已從概念階段真正落地,走向普惠化、消費級,應(yīng)用場景也從參觀訪問、商務(wù)會談、跨國會議等商業(yè)場景,擴展到了出境旅游、跨文化交流等領(lǐng)域。頭部 AI 翻譯耳機也由當(dāng)初“對講機”式的交替?zhèn)髯g模式,進(jìn)化到了更接近“自由交流”式的同聲傳譯模式。

作者測試了時空壺最新一代產(chǎn)品 TimeKettle W4 Pro,發(fā)現(xiàn)它已經(jīng)完全可以應(yīng)付需要“開口講外語”的大部分場景。

這是時空壺 YouTube 官方賬號發(fā)布的 W4 Pro 的宣傳片,很好地展示了在商務(wù)場景中,W4 Pro 如何作為跨語言交流的 AI “嘴替”發(fā)揮作用。

W4 Pro 提供 5 種工作模式,適配不同的應(yīng)用場景,可供用戶自由切換。這 5 種模式涵蓋了上文中提到的所有場景:

1. 影音模式——為音、視頻內(nèi)容實時提供字幕和翻譯;

2. 傾聽模式——對方說外語,耳機翻譯給我聽;

3. 發(fā)言模式——我說中文,手機外放翻譯給對方聽;

4. 通話模式——我說中文,電話/IM 軟件對方聽到外語翻譯;對方說外語,耳機翻譯中文給我聽;

5. 1v1 雙向?qū)υ捘J?mdash;—對話雙方一人佩戴一只耳機自由交流,耳機同步翻譯,更貼近面對面日常交談的場景。

圖:從左至右依次是影音模式、傾聽/發(fā)言模式、通話模式

作為一名前英語筆譯,作者雖然可以應(yīng)付日常英語交流,但在開會、與不同國籍、不同口音的外國朋友交流時,英語能力仍是明顯的限制,更不用說遇到其他語種的情況了。如今,AI 翻譯耳機這個“外掛”,給了我這樣的跨語言工作者極大的信心和助力。

跨語言交流沒有 one for all 的最佳解

底層技術(shù)的躍遷提升了終端產(chǎn)品的用戶體驗,也降低了應(yīng)用落地的門檻。如今市場上涌現(xiàn)出更多 AI 翻譯軟硬件設(shè)備:

許多大廠和初創(chuàng)品牌切入 AI 翻譯耳機賽道;讓普通藍(lán)牙耳機秒變“AI 翻譯耳機”的軟件模塊驚現(xiàn)華強北;專為翻譯設(shè)計的各類手持設(shè)備、手機、平板陸續(xù)上市;AI 翻譯眼鏡乃至腦機接口等更多創(chuàng)新形態(tài)的產(chǎn)品還在路上……

作者贊同時空壺創(chuàng)始人田力的觀點:“跨語言痛點是非常大的,散落在非常多的產(chǎn)品里,市場是非常大的,但目前還沒出現(xiàn)一個通用型方案,適合所有場景。”

作為最早突破“雙向同傳”技術(shù)的 AI 翻譯耳機產(chǎn)品,時空壺的技術(shù)優(yōu)勢在“通話模式”和“1v1 雙向?qū)υ捘J?rdquo;中的體驗最好,而在“影音模式”下,同聲傳譯的幾秒延遲可能造成的視頻“音畫不同步”,給用戶的體驗,肯定是不及內(nèi)容供給側(cè)的“原生配音”的。

此外,已有的解決方案還遠(yuǎn)談不上“完美”,就如同考試成績一樣,從 90 分提升到 95 分的難度,可能遠(yuǎn)大于從 60 分提升到 90 分。

比如,如何在在線翻譯網(wǎng)絡(luò)信號不好和離線翻譯質(zhì)量不好之間平衡?如何突破 1v1 場景限制,實現(xiàn)多人流暢地跨語言交流?耳機的形態(tài)如何突破“私人物品共享”的社交障礙?眼鏡的形態(tài)如何解決不識字的問題……

這其中,有的是技術(shù)問題,有的可能是工程問題,還有的甚至無關(guān)“跨語言”,而是純粹的“交流”問題。

田力在近期一次公開談話中表示,“因為人的交流的形式,在時間、空間和對象上,就是非常多元和豐富的。不同場景其實是排列組合的一個網(wǎng),我們從一開始做產(chǎn)品設(shè)計的時候就很明確了,時空壺不是為所有的場景服務(wù)的。當(dāng)前為止,其實我們解決的,只是這個排列組合中的一個點,未來,可能是一個產(chǎn)品組合。我期待在未來解決所有場景問題的選手中,時空壺是幾個主要的貢獻(xiàn)者之一。”

也許未來會像電影《降臨》里描繪的那樣,有新的文字系統(tǒng)出現(xiàn),亦或者像小說《三體》中三體文明設(shè)定的那樣,直接通過“思維交流”,從而徹底顛覆掉人類跨語言交流的模式。但在那之前,作為曾經(jīng)的翻譯從業(yè)者、如今的 AI 翻譯產(chǎn)品用戶,作者自然期待時空壺的使命無限接近于完成——讓所有語言不通的人,都可以用母語自然交流、互相理解。

本文系作者 白鯨出海 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

13:12

鋰電材料股漲勢擴大,十余只成分股漲停

13:07

港股創(chuàng)新藥板塊午后持續(xù)走高,昭衍新藥、石藥集團漲超10%

13:06

深證成指突破13800點整數(shù)關(guān)口

13:05

市場監(jiān)管總局:到2030年突破影響特種設(shè)備安全與節(jié)能的重大工程難題與疑難技術(shù)問題,進(jìn)一步提高高端檢測儀器國產(chǎn)化率

13:01

深成指、創(chuàng)業(yè)板指雙雙漲逾1%

13:01

尼泊爾總統(tǒng)任命巴倫德拉·沙阿為新總理

12:58

中國成功發(fā)射試驗三十三號衛(wèi)星

12:57

中國芯片研發(fā)重要成果“香山”“如意”系統(tǒng)發(fā)布

12:55

胡塞誓言對抗以色列及其美國幫兇

12:54

伊朗致信聯(lián)合國,抗議伊議長和外長被列為暗殺目標(biāo)

12:54

北京市人工智能協(xié)會正式成立

12:53

博鰲亞洲論壇2026年年會今天閉幕

12:46

OpenAI ChatGPT廣告試點六周年化收入破1億美元

12:37

社?;饡馉危簯?yīng)進(jìn)一步完善基金份額轉(zhuǎn)讓機制

12:28

茶百道:2025年營業(yè)收入53.95億元,同比增長9.7%

12:22

碧桂園服務(wù):2025年凈利潤6.015億元人民幣,同比下跌66.7%

12:14

心動公司:2025年公司權(quán)益持有人應(yīng)占溢利15.35億元,同比增長89.20%

12:13

俄外長否認(rèn)俄向伊朗提供情報

12:05

港股午評:恒生指數(shù)漲0.55%,恒生科技指數(shù)漲1.05%

11:50

馬斯克:Grok Imagine下周將有重大發(fā)布

掃描下載App