圖片來源:視覺中國

在被稱為AI 落地元年的2018年,以“AI+視覺”為主的CV(Computer Vision)領(lǐng)域大放異彩。不論是通過圖像、人臉識別向安防、自動駕駛、零售等領(lǐng)域的廣泛拓張,還是商湯、云從、曠視、依圖“CV四小巨頭”的興起,計(jì)算機(jī)視覺已成為人工智能發(fā)展進(jìn)程中實(shí)現(xiàn)領(lǐng)先的一條賽道。

然而,與視覺識別相對的語言、語義識別領(lǐng)域,即NLP(Natural Language Processing 自然語言處理),雖然起源時間更早,但發(fā)展程度與落地表現(xiàn)卻稍遜于前者。

早在“人工智能”概念在1956年達(dá)特茅斯會議提出后,科學(xué)家們開始寄希望于用計(jì)算機(jī)模擬大腦理解語言學(xué)的過程。1962年,“機(jī)器翻譯與計(jì)算語言學(xué)學(xué)會”(后更名為國際計(jì)算機(jī)語言學(xué)委員會,簡稱“ACL”)在美國成立,標(biāo)志著學(xué)界對機(jī)器翻譯、語義理解等AI技術(shù)深入研究的開端。

不過,按照中科院研究院博士生導(dǎo)師宗成慶的說法,“機(jī)器翻譯遇到了很多難以克服的語義障礙,甚至一度進(jìn)入低迷狀態(tài)。”

2013年,宗成慶成為國內(nèi)至今唯一一位加入 ACL 的華人科學(xué)家。在他看來,在語音語義理解的機(jī)器翻譯操作中,需要面臨諸如“口音、標(biāo)點(diǎn)識別不準(zhǔn)導(dǎo)致語句翻譯出錯”、“政治經(jīng)濟(jì)等專業(yè)術(shù)語機(jī)器無法勝任”等諸多挑戰(zhàn)。

然而,隨著底層技術(shù)的持續(xù)突破,與商用場景的進(jìn)一步擴(kuò)展,包含語音交互、TTS(文本轉(zhuǎn)換)等內(nèi)容的NLP也即將迎來新的“春天”。

“接下來這兩年,NLP領(lǐng)域一定有更多機(jī)會。” 微軟亞洲研究院自然語言計(jì)算組資深研究員韋福如在近期對鈦媒體表示。

從武漢大學(xué)計(jì)算機(jī)學(xué)院獲得博士學(xué)位,到2010年加入微軟亞洲研究院自然語言計(jì)算組工作至今,韋福如已在NLP領(lǐng)域從事十年有余。今年春節(jié)期間,微軟平臺聯(lián)合央視新聞推出H5交互產(chǎn)品《你的生活,AI為你唱作》,就融入了韋福如所在團(tuán)隊(duì)深耕多年的NLP技術(shù)。

鈦媒體也試用了這則H5應(yīng)用:

在上傳照片后,系統(tǒng)會對照片內(nèi)容如環(huán)境、人物、顏色、表情等進(jìn)行分析;然后基于對照片的理解,歌詞創(chuàng)作系統(tǒng)會自動譜寫符合該照片內(nèi)容的歌詞;最后,由語音合成技術(shù)模擬的央視主持人康輝或微軟智能女聲曉曉,則可以根據(jù)歌詞內(nèi)容結(jié)合配樂伴奏進(jìn)行演唱,用戶就得到了一首專屬定制的MP3歌曲。

春節(jié)期間,微軟平臺聯(lián)合央視新聞推出H5交互產(chǎn)品《你的生活,AI為你唱作》

“圖片-歌詞轉(zhuǎn)化”是韋福如團(tuán)隊(duì)負(fù)責(zé)攻克的重點(diǎn)環(huán)節(jié)。當(dāng)中的難點(diǎn),首先在于對用戶輸入圖片的理解,比如年紀(jì)相仿的男女是否可以對應(yīng)愛情,或者是大笑的表情可以對應(yīng)相關(guān)的歌詞內(nèi)容等;

再一個難點(diǎn)是對歌詞基調(diào)的把握——由于該產(chǎn)品推出時機(jī)是豬年春節(jié),微軟團(tuán)隊(duì)希望“這一H5產(chǎn)品表達(dá)出的感情基調(diào)是更積極的”——這就需要技術(shù)人員在后端算法上進(jìn)行調(diào)試。

事實(shí)上,除了韋福如團(tuán)隊(duì)所代表的自然語言處理,《你的生活,AI為你唱作》中還包含了微軟在去年發(fā)布的深度神經(jīng)網(wǎng)絡(luò)語音合成服務(wù)、以及在后端支持?jǐn)?shù)據(jù)高并發(fā)的微軟Azure云服務(wù)等,可以說,以這則H5為代表的微軟跨部門方案協(xié)作背后,是由整個微軟NLP、語音合成、云服務(wù)等完整方案的商用縮影。

技術(shù)突破

關(guān)于NLP 的發(fā)展阻力,目前擔(dān)任微軟亞洲研究院副院長的周明曾談到技術(shù)“閾值”的理論。

周明拿圖像識別中的安防場景舉例,由于該領(lǐng)域“人證比對”的需求極度旺盛,一旦深度學(xué)習(xí)將計(jì)算機(jī)視覺的水平提高至一定的閾值,該場景的巨大需求就會立刻激活。

然而,由于NLP的技術(shù)難度實(shí)在太大,機(jī)器翻譯水平始終沒能達(dá)到該場景的閾值,再加上自然語言處理的場景并不像安防那樣有著迫切需求,NLP始終在落地到商業(yè)化的路徑上面臨挑戰(zhàn)。

為了提升NLP的技術(shù)閾值,韋福如也帶領(lǐng)團(tuán)隊(duì)始終專注在機(jī)器閱讀理解上的深入研究和系統(tǒng)開發(fā)。

2018年1月,在斯坦福大學(xué)發(fā)起的SQuAD文本理解挑戰(zhàn)賽中,韋福如所帶領(lǐng)的團(tuán)隊(duì)所開發(fā)的端到端的深度神經(jīng)網(wǎng)絡(luò)模型r-net在EM值上以82.650的最高分占據(jù)榜首,首次超越人類成績82.304。

此后,韋福如團(tuán)隊(duì)再次獲得突破,升級后的nlnet模型在EM值和F1值兩個維度上,以85.954和91.677的分?jǐn)?shù)首次全面超越人類在SQuAD數(shù)據(jù)集上的表現(xiàn)。2019年1月,他們基于BERT開發(fā)的最新系統(tǒng)又在SQuAD 2.0和交互式、多輪閱讀理解數(shù)據(jù)集CoQA上名列榜首。

這樣的技術(shù)折射到實(shí)際案例中,韋福如希望能借助通用的自然語言模型,讓機(jī)器學(xué)會“無監(jiān)督”式的自我學(xué)習(xí)。就拿剛才提到的《AI 唱作》H5來說,在韋福如的規(guī)劃下,當(dāng)前期積累一定數(shù)據(jù)后,機(jī)器可以根據(jù)用戶輸入的照片,自行具備較強(qiáng)的文字理解與組織能力,而不是依靠人為的標(biāo)注數(shù)據(jù)。

不過,對于NLP目前力所能及的技術(shù)范圍,韋福如也對鈦媒體表示,“機(jī)器閱讀理解超越人類”仍需一段時日。

“在SQuAD超越人類成績只能說明模型可以擬合這樣的結(jié)果,在特定的數(shù)據(jù)集和評測標(biāo)準(zhǔn)下,算法可以做到普通人類(更具體來說是標(biāo)注人員)的水平,而不是說現(xiàn)在機(jī)器理解自然語言比人類強(qiáng)。”韋福如在此前接受采訪時表示。

商用逐步落地

為了加快技術(shù)落地的效率,微軟內(nèi)部除了在底層技術(shù)研發(fā)取得突破外,也頗為注重技術(shù)產(chǎn)品化的輸出形式。

去年9月,微軟發(fā)布了企業(yè)級定制語音合成的平臺,讓企業(yè)可以根據(jù)他們想要的音色定制聲音。去年12月,微軟在語音產(chǎn)品上再次取得重大技術(shù)突破——推出深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)。

這項(xiàng)看起來晦澀的技術(shù)名詞,實(shí)際上就是我們使用高德、百度地圖時郭德綱、林志玲等明星聲音的由來。通過深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù),明星只需要錄制有限的關(guān)鍵語句,即可讓機(jī)器合成、并學(xué)習(xí)擴(kuò)展至更多的語料。

“很多過去做不到的事情,現(xiàn)在可以做到了。”微軟亞洲互聯(lián)網(wǎng)工程院語音組產(chǎn)品經(jīng)理劉越穎對鈦媒體表示,她舉例道,諸如語氣、情感方面機(jī)器擬人的自然度、模型的穩(wěn)定度都得到了明顯的提升;同時,平臺也整合了定制化的能力,可以根據(jù)企業(yè)需求將不同的聲音風(fēng)格賦予不同的場景。

另外,語音合成技術(shù)對數(shù)據(jù)量的減少,也成為這項(xiàng)技術(shù)愈發(fā)受到企業(yè)青睞的原因之一。

以此次《AI 唱作》H5為例,為了獲得央視主持人康輝的語音合成聲音,微軟只需要康輝錄制不到十首歌,就可以用相似的風(fēng)格演繹成千上萬首歌,“比友商減少了十倍”。而這種對語音訓(xùn)練數(shù)據(jù)的減少,直接刺激了企業(yè)定制語音的需求。

目前,微軟已經(jīng)利用深度神經(jīng)網(wǎng)絡(luò)語音合成技術(shù)拿下多個客戶,比如教育領(lǐng)域的Roobo 機(jī)器人;智能硬件中的小米,其最新發(fā)布的小米9手機(jī)中,來自歌手王源的聲音助理,就是由微軟通過語音合成制作而成。

“這種定制化語音的需求正愈加明顯,從早期定制地圖的語音,到現(xiàn)在的呼叫中心,AI在線老師等。每個公司都希望有一個自己的形象,這個形象不僅僅是基于圖像層面的,同時也是三維的。”劉越穎告訴鈦媒體。(本文首發(fā)鈦媒體,作者/蘇建勛) 

本文系作者 蘇建勛 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 因爲(wèi)這些機(jī)器視覺的AI應(yīng)用容錯率比較高,能湊合用,但語音識別就不行,說錯一點(diǎn)或語無倫次一般人很難容忍,只能用語固定口令的應(yīng)用。

    回復(fù) 2019.03.15 · via pc

快報(bào)

更多

13:29

瑞銀:中國市場調(diào)整或已過度,優(yōu)質(zhì)AI股票迎來布局窗口

13:24

北京消費(fèi)品以舊換新政策持續(xù)落地,帶動銷售額約50億元

13:23

全國新能源汽車動力電池溯源信息平臺正式啟動

13:22

深圳:規(guī)模建設(shè)先進(jìn)級智能工廠

13:20

摩托車概念異動,宏昌科技走出20cm2連板

13:20

Grab將于4月7日起上調(diào)燃油附加費(fèi)

13:12

綠電概念局部回暖,深南電A漲停

13:11

泰國政府:微軟計(jì)劃在泰投資10億美元發(fā)展人工智能和云計(jì)算

13:07

工信部等九部門:激發(fā)消費(fèi)領(lǐng)域物聯(lián)網(wǎng)應(yīng)用需求,培育一批物聯(lián)網(wǎng)應(yīng)用和增值服務(wù)

13:06

工信部等九部門:加快IPv6規(guī)模部署,推動新增行業(yè)應(yīng)用終端支持并默認(rèn)啟用IPv6協(xié)議

13:01

全球最大型號增程式旋挖鉆機(jī)發(fā)布

12:55

吉爾吉斯斯坦駐伊朗使館宣布暫停工作

12:54

香港證監(jiān)會:2025年香港證券業(yè)盈利及交易額均創(chuàng)五年新高

12:47

中國汽車流通協(xié)會:3月中國汽車經(jīng)銷商庫存預(yù)警指數(shù)為57.5%

12:39

360智能體發(fā)現(xiàn)OpenClaw高危漏洞,或波及全球17萬實(shí)例

12:36

巴基斯坦副總理兼外長達(dá)爾來華

12:30

保利物業(yè):2025年公司擁有人應(yīng)占年內(nèi)溢利同比增加約5.1%

12:23

聯(lián)想控股:2025年凈利潤97.99億元,同比增長28%

12:23

西班牙禁止涉美以打擊伊朗飛機(jī)飛越領(lǐng)空 白宮、魯比奧回應(yīng)

12:20

市場監(jiān)管總局、民政部發(fā)布新規(guī)規(guī)范殯葬領(lǐng)域明碼標(biāo)價

1

掃描下載App