這跟傳統(tǒng)理解的天氣預報不一樣。用戶使用自然語言交互,他沒有說我要問天氣,或者天氣預報,當我們真正在生活中產(chǎn)生對天氣情況查詢的需求,對話都很場景化,場景比如”今天下雨不,去上海要帶傘嗎”,實際需要理解的是時間、地點、是否下雨。

這幾個例子,同樣是詢問天氣,但用戶只想了解溫度,機器進行語義理解后,只回復了氣溫數(shù)據(jù)和建議;由此產(chǎn)生多輪詢問,切換時間、切換城市,都能針對性回答問題。所以,作為天氣這么一個最基本的服務,智能化在于怎樣使用戶通過更自然的方式表達訴求,機器通過更人性化的方式滿足訴求。

比較早的時候是機械鬧鐘,上發(fā)條,到點就會響鈴,然后手動摁掉鬧鐘停止。現(xiàn)在大家用智能手機設的鬧鐘可以實現(xiàn)到點后手動停止,或推遲多長時間再喚醒。智能化的鬧鐘可以怎么玩?篇幅有限,我們只看一個環(huán)節(jié):鬧鐘設置完畢,也在規(guī)定時間響起,如何有效喚醒主人起床或關閉鬧鐘?

基于語義理解,我們可以做到如下圖:

如果用戶成功回答問題,艾如意寶寶反饋關閉成功,鬧鐘就不再響了。如果用戶回答錯誤,我們還能設置音箱給用戶多次回答的機會,直到答對后音箱成功關閉,這時候人也該清醒了。有些情況下,用戶真的無法回答或需要賴床,基于語義理解,我們也可以做到比如:

這時候艾如意寶寶知道用戶要往后延遲起床,仍然知趣地鬧鐘關閉成功,說:哎呀,還是拗不過主人。

所以人“人”交互,人和機器人的交互設計,就有很大的不同。人不是機器,會有模糊,會有不同表達方法,我們希望智能音箱中的機器人也能人格化,被當成一個伙伴而不是冰冷的機器。

停止鬧鐘功能,除了上面舉例的詩詞之外,也可以設為成語接龍,比如音箱里的艾如意寶寶說春風化雨,用戶說雨過天晴,艾如意寶寶說鬧鐘關閉成功了。當然玩成語接龍也有可能想不起來,艾如意寶寶也會更換不同的題型,提供足夠的容錯空間,比如再玩點兒別的:口算55+66等于幾?中國有幾個省等等,當艾如意寶寶明白你的意圖、同時具備了一些知識技能后,就可以與你深層次互動, 來達到設計好的目的。

我舉鬧鐘這個例子來表明,通過語義理解可以定制出這么一類新的智能產(chǎn)品交互模式,能夠使機器與人像人與人一樣進行有趣、有用的互動。

這些新的產(chǎn)品交互模式可以基于具備的領域服務資源進行整合。比如需要有所有詩詞的知識,才能夠知道詩句的上一句和下一句。當這些領域覆蓋后,結(jié)合系統(tǒng)的機制,就可以整合形成我們剛剛演示的鬧鐘喚醒停止功能。以此類推,通過不同領域服務與語義理解的組合,可以形成各種各樣意想不到的打破傳統(tǒng)產(chǎn)品交互設計帶來的效果。

如果早上想聽新聞,就對音箱說,音箱里面的艾如意寶寶將文本的新聞通過一些初級或深入的分析,再用TTS語音合成找到結(jié)果,或直接調(diào)用有聲資源將現(xiàn)成的音頻資源播放給你聽。目前我們平臺整合了約1500萬網(wǎng)絡音頻資源,從兒童故事到名家講壇,從名著章回到相聲小品,在你說你想聽什么后,大都可以直接為你播放。

比如,我想聽羅胖子講互聯(lián)網(wǎng)。音箱能反饋什么?結(jié)果為返回羅振宇的一期邏輯思維“五問互聯(lián)網(wǎng)”的節(jié)目。傳統(tǒng)的搜索很難做到這點,為什么呢?因為搜索”我想聽羅胖子講互聯(lián)網(wǎng)”會出現(xiàn)很多東西,如何才能命中這個準確的內(nèi)容呢?

從技術實現(xiàn)來講,還有幾個問題:第一,艾如意寶寶需要知道,用戶是想聽一個節(jié)目;第二,知道用戶要聽節(jié)目后,還要明白用戶要聽什么內(nèi)容;第三,撇去次要信息,解析出羅胖子是個人,講互聯(lián)網(wǎng)話題。

那么誰是羅胖子? 有的人說,是羅振宇,有的人會說,不,是羅永浩。這兩個都是胖子,都還有點名氣,為什么系統(tǒng)返回了羅振宇講互聯(lián)網(wǎng)的內(nèi)容呢?在相對成熟的體系里,系統(tǒng)把羅振宇、羅永浩等字符串映射到一個個實體:一個名字是羅振宇的人被稱為羅胖子,是前央視的記者,后來自己創(chuàng)業(yè)做邏輯思維,是個媒體人,常常開講從技術到人文到各領域的見解;一個叫羅永浩的人也被稱為羅胖子,錘子手機的CEO,過去做英語培訓,搞行為藝術,他可能更多的是會推銷錘子手機,或者是講講英語等。有了這些判斷,系統(tǒng)定位了羅胖子更可能是羅振宇。最后就搜索匹配關于互聯(lián)網(wǎng)話題的內(nèi)容,結(jié)果邏輯思維節(jié)目中有一期叫“五問互聯(lián)網(wǎng)”。這個過程既包含了自然語言理解,也包含了知識圖譜應用。

當內(nèi)容體量非常大,人們的問法說法也非常多時,命中率通過應用這些技術會比傳統(tǒng)關鍵字搜索高不少。當然,想窮盡所有的說法,給所有用戶的所有表達習慣一個滿意的答案,還有一段路要走。

音樂,對于智能音箱來講,是非常重要的一個功能。目前,我們已經(jīng)整合了千萬量級的音樂元數(shù)據(jù),也能覆蓋了用戶關于音樂點播的多樣化的說法。目前主要有三個方面的智能化特點:

  1. 過去比較傳統(tǒng)的做法是,我想聽誰的歌,音箱就返回此人的歌曲,一般用搜索模式也能做到。但比如”我想聽五月天的新歌”,這就有點兒不一樣了,我們不止會識別”五月天的歌”還會將”新歌”作為關鍵點,返回五月天最新的歌曲列表。如果接下來繼續(xù)問”來一首他們的《倔強》”,艾如意寶寶就通過音箱就開始播放這首歌了。這個”他們”是誰?系統(tǒng)理解就是上一輪對話中的”五月天”——完全貼合自然人的溝通方式。你也可以說“來一首《好久不見》,陳奕迅唱的”,音箱播放了陳奕迅的《好久不見》,然后你突然想:哎呀,好像張學友也唱過《好久不見》!說“換一個張學友的版本”。這時候,系統(tǒng)會切換到張學友的《好久不見》,接著,你留戀起了張哥哥的歌喉,繼續(xù)說“再來一首他的《吻別》”,這里的”他”指的是誰?張學友。這些都是基于自然語言理解和知識圖譜技術的問答,區(qū)別于傳統(tǒng)的關鍵詞查詢,更加靈活、準確、自然。
  2. 場景化點歌。 比如說“放點適合喝咖啡時聽的音樂吧”,或者“哎呀,我最近心情有點郁悶,聽什么音樂呢”,甚至“我這會兒在寫作業(yè),來點兒輕松的音樂”,等等,這時系統(tǒng)會根據(jù)特定場景,返回適合這種場景的某些類型的音樂。
  3. 新一代的的智能音樂推薦機制。用戶連場景也無需描述,只說放音樂,音箱自動播放適合你的音樂。一方面,系統(tǒng)會盡可能懂你,通過對話過程了解你是誰,播放記錄理解你的口味,以及點歌、播放以及其它領域聊天的過程通過對對話的理解來把握用戶的興趣偏好。我們把整個的音樂庫做成是一張大的圖譜,最后找到適合你的這些音樂。而且你用的時間越長,系統(tǒng)會對你的了解會越準,推薦的歌會越適合。怎么做才能實現(xiàn)這些功能?一方面是讓機器懂人的意圖是什么,另外是知道資源知識在哪兒。從產(chǎn)品技術的角度來講,就是一套自然語言理解和開放知識圖譜的技術服務平臺來提供語義API給大家來實現(xiàn)這些功能。

海知智能,降低打造機器人大腦的門檻

下圖是我們總體的技術架構(gòu),左邊是IOT智能硬件、機器人、即時通訊的工具、APP、網(wǎng)頁或者是電話,其中的語音識別和語音合成我們不涉足。但多輪對話的機制、自然語言理解到語義搜索,接著對應到領域服務,領域服務獲得內(nèi)容之后,通過自然語言生成答案,中間核心部分是機器學習和知識圖譜技術。

在領域服務方面,一來,通過開放接口對接大量第三方數(shù)據(jù),另外,我們平臺提供專門的語義工具箱可以為機器人運營方或者產(chǎn)品品牌方使用,用來設計自己的個性化特色。海知智能ruyi.ai作為開放的技術平臺,采用開放的業(yè)務模式,從底層的技術到上層應用都對外開放,大家可以做出屬于自己的個性化機器人大腦。

例如,如果有一款音箱,接入了技術平臺上的艾如意寶寶機器人后,勾選音樂服務、有聲資源服務、天氣、笑話、百科知識等等服務,就可以實現(xiàn)基本的語音交互了,機器能聽懂你,還能給你答案或者結(jié)果。當然,如果僅這些功能可能會出現(xiàn)千機一面的現(xiàn)象,一千種產(chǎn)品接一個技術平臺,不做任何個性化編輯,雷同度將非常高。但使用了語義管理的工具箱,幾乎任何人學會后都可以對機器人大腦增刪改寫自己的問答對兒、去做自己需要的二次開發(fā)定制機器人的技能。前者對無任何相關專業(yè)基礎的文科生來說,只需經(jīng)過不到三天的培訓,就可以掌握這個工具;后者則需要一定的開發(fā)技術,能做出自己想要的東西。 兩種定制模式結(jié)合,將智能音箱打造成從內(nèi)而外的個性化機器人。

海知智能是一家創(chuàng)業(yè)公司,提供語義API開放技術服務,但不會重點面向開放領域做,而是針對若干垂直領域做深做透。除了開放給合作伙伴,我們也開放給同行;如果同行有自己的API,覺得自己的更好的部分用自己的,沒有的或者沒有我們好的可以用我們的。因為用戶一開口說話,覆蓋的領域范圍就非常的多,大家把各自專業(yè)或者專長的 API結(jié)合起來滿足用戶盡可能多的連續(xù)性需求。平臺開放,不僅僅把語義管理工具箱開放給大家,把技術接口開放給開發(fā)者,同時不管文科生還是理科生,內(nèi)容的運營者還是程序員工程師,可以在這個技術平臺的基礎之上,經(jīng)過二次加工或開發(fā),形成具備個性特色乃至人格化的機器人大腦的技能,為自己的品牌服務。如果愿意,也可以把這些大腦技能打包后做成領域服務,提供給第三方。我們很快會開放這些功能,把開發(fā)者二次設計開發(fā)的技能變成一個公開的領域服務。這樣一來,其他人做的機器人大腦也可以用你的領域服務,豐富自己的機器人大腦技能。

因此,我們也在與若干高校、企業(yè)等,發(fā)起中文開放知識圖譜聯(lián)盟,就希望能夠讓大家把數(shù)據(jù)通過 API開放互聯(lián),一起來讓中文的智能機器人具備越來越強的服務能力。

目前,海知智能已經(jīng)做了二十多個領域,尤其像音樂有聲資源,與Echo做過專門對比,撇開Echo的高超的英語能力不談(這家伙只有英文版),我們的成熟度,包括用戶體驗、數(shù)據(jù)數(shù)量、覆蓋的用戶說法等等,相對echo的這些方面,都有了些超越,覆蓋的說法更多,命中率也更高。

另外像鬧鐘這種類型的服務,這也是他所沒有的,echo只是簡單的設置一個鬧鐘,還是用語音輸入法的方式設計產(chǎn)品。但是我們已經(jīng)具備了這個能力,可以讓這個事做得非常有意思。當然Echo及其 Alexa還是非常強大的,其整體體驗也是非常棒的。只是從我們的角度來講,到目前為止,海知智能ruyi.ai及其艾如意寶寶機器人在支持中文的智能音箱方面,智能化程度上和資源的整合方面達到了一定的成熟程度,不亞于 Alexa(英文能力)。我們支持幾家音箱的品牌最近也會陸續(xù)的上市。

不遠的未來,每一個家庭的每一個房間,都應該有一臺智能音箱。2017年是智能音箱爆發(fā)的第一年,會是中國智能音箱元年。也許是兩三年,或者三五年,它應該不比智能手機普及的速度更慢,會覆蓋更多的家庭的場景,會變成家庭的一個不可或缺的新成員。

所以,海知智能的使命是“人人會做機器人”。就是把打造機器人大腦的門檻,降低到足夠低,只要你會用電腦,會玩微信公眾號你就可以做一個自己的機器人大腦,像過去做個app或者是網(wǎng)頁一樣為大家提供服務。最終希望有那么一天,人人能有機器人,機器人在方方面面為你服務,讓你工作生活更加輕松如意。

鈦坦白群友互動:

Q:你們用的到語音識別、語音合成之類的技術嗎?自己不研發(fā)的話和哪家企業(yè)合作?

謝殿俠:我們不做語音識別和語音合成,也不碰硬件,只專注于語義API,專注于這個技術的平臺。我們的輸入端是文本,所以任何一家語音識別的公司,轉(zhuǎn)換成文本之后我們都可以對接,并且可以根據(jù)語音識別的結(jié)果通過語義理解來做對應的修復和優(yōu)化。

Q: 免費的開放平臺,能夠獲取大量的用戶數(shù)據(jù)豐富知識圖譜,整體的商業(yè)模式是怎樣的?

謝殿俠:我們并不是完全免費,F(xiàn)reemium的方式,有限的免費。比如在針對硬件服務這部分,我們有對應的licence加API調(diào)用的收費方式,以及包含使用了音樂等第三方的收費服務。

Q: 語音轉(zhuǎn)文本會存在錯誤率,對后續(xù)意圖識別影響會很大嗎?特別是bot后端對接海量服務的時候,意圖識別的準確率和效率的問題

謝殿俠: 語音識別的確是會有錯誤率,比如說不管是大家差錯率降到百分之幾,比較小的差錯率對我們影響不大。我們可以通過語義理解來修復語音識別的差錯,即使兩邊是完全松耦合對接,當然緊耦合也有可能會帶來更好的結(jié)果。當差錯率比較小的時候,我們是有可能去修復錯誤結(jié)果來提升整體的理解準確性,但是如果差錯率比較大,比如說有噪音或者聽歌過程中打斷進行交互時語音識別錯誤率偏高時,語義理解進行修復的難度就會比較大。所以說,當差錯率小到一定程度的時候,我們可以起到好的作用,當差錯率大到一定程度的話,我們暫時還無法保障結(jié)果的有效性。

Q:專注垂直領域,有深度才能夠智能。

謝殿俠:對,因為從現(xiàn)在來講,比如說人臉識別突破了機器視覺能夠超越人類的識別能力,語音識別也接近了,但是語義理解和自動化處理知識,這一塊機器和人相比還是有距離的。在這種情況下,我一直強調(diào)一個觀點,“叫特定場景,特定用戶,面向特定問題提供特定的領域服務,圍繞著垂直把事情做透”。

智能音箱表面上來講是個單品,和機器人相比比較簡單,我們把智能音箱定義成機器人的 MVP。所以如果要把產(chǎn)品做好還是有很大難度,比如首先需要把芯片板卡成本降到足夠低,穩(wěn)定性提高到足夠的高;然后是語音識別,語義理解的中間的環(huán)節(jié),還有內(nèi)容的資源整合。這些環(huán)節(jié)做好做透,既有技術含量高的地方需要去挑戰(zhàn),也有苦活、臟活、累活的做做通 。當然音樂等版權(quán)內(nèi)容領域, 這一年多經(jīng)歷了版權(quán)不斷變化收緊和行業(yè)格局進行變化調(diào)整的過程,我們一直在對接各種各樣正版的資源。不管是技術上還是商務上,這條路已經(jīng)打通。所以從智能音箱這個產(chǎn)業(yè)鏈角度來講是天時地利人和,萬事俱備只欠東風,接下來就看有多少品牌來做以及做到多大的量的問題。

Q:智能音箱的價格大概會是多少?

謝殿俠:音箱的成本主要取決于硬件,喇叭的質(zhì)量、芯片板卡、外觀,然后是材質(zhì),還有軟件這塊的成本,當然還有可能的內(nèi)容資源成本,比如版權(quán)音樂但不會太高,所以核心的成本還是在硬件上。目前我所知道的價格大概有的一千多的,有的是做三五百的,當然三五百的各塊的品質(zhì)是相對有限,但是基本上一千塊錢左右的,作為一個喇叭,它的質(zhì)量已經(jīng)非常好了,再加上語音交互,結(jié)合好的內(nèi)容,這個體驗是相當不錯。

Q:人人都有自己的 bot,平行世界的自己?

謝殿俠:我這兒說的人人有自己的機器人,可能跟平行世界里的自己還有點不一樣,平行世界自己是你的影子,現(xiàn)在我們可能側(cè)重的還在于說為你服務的機器人。就像過去的皇帝, 以后每個人都可以是皇帝,因為你也可以有三宮六院,七十二妃,文武百官,不過都是機器人,不管是什么形態(tài)。音樂背后可以是一個機器人,實際上新聞也可以是一個機器人,導購也可以是機器人,換句話說,以后所有的服務都可以用機器人來做,就好像電腦上用網(wǎng)頁來為大家提供服務,手機app為大家服務一樣。所有人能提供的服務,未來都可能會讓機器人先在前端來提供。當然這個機器人的形態(tài)可能體現(xiàn)在智能硬件上,尤其智能音箱,結(jié)合到app里面也可以,放在網(wǎng)頁上也沒問題。而且機器人適應我、習慣我后,機器人就和我就建立了一個關系,機器人熟悉了我的性格、我的偏好、甚至我的脾氣,這時,機器人成為一個與我非常熟的朋友。這時的機器人有兩個特點:第一這個機器人非常專業(yè),第二這個機器人與我非常默契。

所以我們說的個性化的平臺,除了不同的品牌的機器人會有不同個性化特點;另外,即便同一個機器人在服務不同用戶的時候可以和用戶建立獨特的關系。比如最基本的你可以叫機器人小狗或者小貓、翠花,機器人也會問你,請問我怎么稱呼你,你可以讓它叫你老爺、老王等等。(本文獨家首發(fā)鈦媒體,根據(jù)海知智能創(chuàng)始人、 CEO謝殿俠在鈦坦白上的分享整理)

………………………………………………

鈦坦白第27期,也是“AI已來”系列第一期,六位鈦客的精彩分享已經(jīng)結(jié)束,干貨會陸續(xù)發(fā)布:http://www.chcmb.cn/tag/1508094

【預告】鈦坦白第28期:AI已來,讓機器看懂這個世界

時間:12月26日、27日19點-22點

地點:鈦坦白|人工智能(微信群)

報名入群:在微信公號“鈦媒體”(taimeiti),發(fā)送“鈦坦白”

推薦鈦客、贊助、合作:請與鈦坦白負責人佳音聯(lián)系,郵箱jiayinge@tmtpost.com

本文系作者 葛佳音 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
2

掃描下載App