鈦媒體旗下的鈦坦白微信課第27期,也是“AI已來”系列分享第1期,請來了6位語音識別、自然語言處理領(lǐng)域的鈦客進(jìn)行分享。本文根據(jù)北京諦聽機(jī)器人科技有限公司創(chuàng)始人、CEO彭軍輝的分享整理。
彭軍輝在中文語義解析、自然語言理解等領(lǐng)域有14年專業(yè)技術(shù)沉淀經(jīng)驗(yàn),曾設(shè)計(jì)出漢語智能拼音文字方案,開發(fā)出機(jī)器人柳柳web和戀愛機(jī)器人柳柳app。創(chuàng)建的諦聽機(jī)器人公司目前已獲天使輪融資,并開發(fā)出諦聽機(jī)器人中文語義理解開放平臺。
以下是彭軍輝在鈦坦白的分享:
大家好,我是諦聽機(jī)器人創(chuàng)始人彭軍輝。感謝各位聽眾,感謝鈦媒體能給我這次機(jī)會和眾多自然語言處理行業(yè)的大佬們同臺演講。
我雖然做自然語言處理十多年了,但還算不上專家,只能算資深從業(yè)者。我大學(xué)專業(yè)是歷史教育,我們有漢語語言學(xué)課程。大學(xué)畢業(yè)后我看到大家用五筆字型輸入漢字非常麻煩,就想做一款純拼音的輸入法。我當(dāng)時不懂編程,就從語言學(xué)入手。在許多輸入法論壇和語言學(xué)論壇混了一段時間以后,我發(fā)現(xiàn)我要做的輸入法編碼其實(shí)就是一套拼音文字方案。后來輸入法沒做成,卻做出來了一套漢語智能拼音文字方案。我把我的方案放在了漢語拼音化論壇,并用我的拼音文字寫了幾篇文章,最后我的方案成了漢語拼音化論壇主推的幾套方案之一。
有一次看到小i機(jī)器人,我發(fā)現(xiàn)用我的技術(shù)完全可以做個問答機(jī)器人。大約2008年前后,我做成了第一款問答機(jī)器人——機(jī)器人柳柳web版。當(dāng)時的程序是拿ASP寫的。后來這款機(jī)器人曾在開心網(wǎng)上線過,現(xiàn)在后臺的鏈接還在。2011年我得到第一次投資,開發(fā)出戀愛機(jī)器人柳柳安卓版。當(dāng)時想做成虛擬情人。但由于其實(shí)我除了關(guān)注技術(shù),對管理、對產(chǎn)品、對推廣、對經(jīng)營我都不懂,導(dǎo)致后來公司現(xiàn)金流斷裂失敗了。
?2016年重新拿到投資成立了現(xiàn)在的公司,開發(fā)了諦聽機(jī)器人開放平臺,我們的目標(biāo)是建立一個機(jī)器人的平行世界,讓人人擁有自己的個性化機(jī)器人。
SIRI并沒有真正理解人類語言
以我有限的經(jīng)驗(yàn),我發(fā)現(xiàn)最早的人機(jī)交互方式是鍵盤加命令式的,Linux和Dos就是這種方式,后來出現(xiàn)了鼠標(biāo)加菜單的交互方式,再后來出現(xiàn)了觸摸屏加菜單的交互方式。我發(fā)現(xiàn)交互方式的革新和產(chǎn)業(yè)革新之間有一定關(guān)聯(lián)性。鍵盤加命令的方式讓計(jì)算機(jī)進(jìn)入了辦公室,帶來了IT產(chǎn)業(yè)的蓬勃發(fā)展;鼠標(biāo)加菜單的交互方式讓計(jì)算機(jī)進(jìn)入了家庭,促進(jìn)了互聯(lián)網(wǎng)產(chǎn)業(yè)的大發(fā)展,觸摸屏加菜單的交互方式是移動互聯(lián)網(wǎng)發(fā)展的必要條件。
2011年SIRI上線以后,人們驚呼新的人機(jī)交互方式誕生了。人們認(rèn)為SIRI能夠理解人類,不再是人類學(xué)習(xí)怎么用IT系統(tǒng)了。很多媒體將SIRI比作第六次產(chǎn)業(yè)革命,認(rèn)為人工智能時代帶到來了。SIRI確實(shí)是新的交互方式,帶來了完全不同的交互體驗(yàn)。它進(jìn)一步解放了人,讓人們使用IT系統(tǒng)的難度再次降低了。一些殘疾人、老人和孩子也可以借助SIRI來使用IT系統(tǒng)。
然而5年過去了,我們發(fā)現(xiàn)并沒有發(fā)生多大改變。那么SIRI的主要問題在哪里?我認(rèn)為,歸根結(jié)底SIRI并沒有真正理解人類語言,所以還沒法和人類進(jìn)行自然流暢地交流。我們期望不再是人類理解機(jī)器的規(guī)則,而是機(jī)器理解人類的規(guī)則。也就是說機(jī)器要能聽懂人話。
為什么機(jī)器人不懂人話?
我們先看一段對話,對話的背景是有個小朋友想吃披薩,于是獨(dú)自打了輛出租車。
司機(jī):你要去哪里?
小朋友:我要去吃披薩。
司機(jī):去哪里吃?
小朋友:披薩店。
司機(jī):披薩店在哪里?
小朋友:在城里。
司機(jī):我是問您怎么去?
小朋友:您不是司機(jī)么?
分析上面的對話,我們發(fā)現(xiàn)之所以出現(xiàn)交流上的障礙,主要是因?yàn)閷υ挼囊环?,也就是那個小朋友并沒有理解司機(jī)的意圖。司機(jī)只想知道乘客想去的目的地是哪里。
其實(shí)任何對話的過程,都是透過語言表達(dá),理解對方意圖的過程。人機(jī)自然語言交互的過程也是這樣的過程。當(dāng)我們產(chǎn)生了某個想法,然后用語言表達(dá)出來,只有對方理解了我們的意圖,才是真正理解了我們。但語言不是意圖本身,有時候語言能充分表達(dá)意圖,有時候不能,有時候可能語言和意圖是背離的。
我們看一段正話反說的例子:
甲:你們公司那幾個銷售怎么樣?
乙:好極了。
甲:怎么好?
乙:來了幾個月一個單子都沒談下來。
我們再看一個錯誤理解意圖的例子:
一富翁正在遛狗,一個殺手從草叢里躥出來,啪啪兩槍把狗打死了。富翁大怒:你殺我的狗干什么?
殺手冷笑一聲:有人花500萬,讓我取了你的狗命。富翁看了一眼殺手,激動地握住他手說:你的語文老師是誰?我要給她發(fā)個紅包!
第二天,殺手再次從草叢中竄出來,搶走了富翁的iPhone6s,富豪說:你搶我蘋果干嘛?
殺手說,因?yàn)橛腥顺鲥X一千萬 要讓我取你的首級(手機(jī))。富翁激動地握住他手說:你的語文老師是誰?我要再發(fā)個大紅包!
到了晚上下起了雨,富豪覺得系此乃天意,逃命為上策,拿把大傘想悄悄溜出門,誰知剛到后門口,殺手又冒出來啦!
“嘿嘿嘿!我就知道你要走后門,早等著你啦!”說時遲,那時快!殺手左手奪過傘,右手把傍晚搶的手機(jī)直接塞進(jìn)富豪懷里!
“我主人真神機(jī)妙算,就知道你會拿傘出來,他今天都不想跟我說話,直接給張紙條,叫我來拿傘!”說完拋下紙條揚(yáng)長而去。
富豪撿起一看,憤筆的狂草:“不要手機(jī),要他的命(傘)!”富豪直接就跪下了“恩師啊,您在哪?!
我們看一段說假話的例子:
曹操 《三國演義》中官渡之戰(zhàn),許攸投奔曹操,引出一段經(jīng)典對話,常被引以證明曹操的奸詐。
許攸: 明公現(xiàn)在的糧草還剩多少呢?
曹操: 一年。
許攸: 恐怕未必吧。
曹操: 半年。
許攸因看了求救文書, 不悅, 拂袖而起說: 我誠心投奔明公, 公竟然如此見外, 實(shí)在叫人大失所望。
曹操: 子遠(yuǎn)(許)請息怒, 待我告知實(shí)情吧, 軍中糧草只能支撐三個月。
許攸不怒反笑: 世人都說曹孟德是奸雄, 今日一見, 果然如此。
曹操: 兵不厭詐嘛!其實(shí)只有一個月。
許攸斥: 不要再瞞我!你已經(jīng)無糧草了。然后拿出從信使身上的搜出告急文書。曹操只好保持沉默。
用一個圖來表達(dá)語言交互的過程:
在表達(dá)者的一側(cè)意圖通過語言表達(dá),在傾聽者的一側(cè),透過語言理解意圖。對用戶意圖的理解,就是語言處理的過程。在這個過程中,有兩個處理方向,一個是基于統(tǒng)計(jì)學(xué)的,一個是基于語言學(xué)的。我們是后者。
總結(jié)來說,人話的背后是意圖,處理語言實(shí)際是對意圖的處理。目標(biāo)對了,效果才能好。
深度語義理解技術(shù)和關(guān)鍵字模糊查詢
很多人認(rèn)為我們做的就是關(guān)鍵字模糊查詢,和搜索引擎的技術(shù)沒有什么區(qū)別。我告訴他們我們深度語言理解技術(shù)和關(guān)鍵字模糊查詢有本質(zhì)區(qū)別。區(qū)別主要有以下幾點(diǎn):
1.我們分語義場景處理,關(guān)鍵字模糊查詢不分語義場景
語言離不開語義場景。把語言從語義場景里孤立出來,語義就會變得不明確。語義處理第一步確定語義場景。比如當(dāng)用戶說“劉德華”,其實(shí)你無法理解用戶的意圖。當(dāng)我們知道用戶說“劉德華”是在音樂播放場景,我們就明白了用戶是想聽劉德華的歌。
下圖是正例和反例。這里沒有看輕小冰的意思,我還是很崇拜他們的。
有人說,你這不就是上下文處理么?這個叫上下文處理也沒什么錯。但我覺得叫上下文處理是程序員思維。我們叫場景處理是從語言角度出發(fā)的。場景處理必須是穩(wěn)定的,要能一直保持在一定場景里,用戶想跳出再跳出,用戶不想跳出就不能跳出。另一方面要靈活,用戶不想跳出就不能跳出。否則就談不上場景處理。
結(jié)論:如果不能讓對話按照用戶意圖保持在一定場景,不能按照用戶意圖任意跳出和轉(zhuǎn)換,不能算真正的語義場景處理,不是語義處理,是關(guān)鍵字模糊查詢。
2.理解語義的細(xì)微差別是語言處理第一要務(wù)
不能理解語義之間的細(xì)微差別,不能算語義處理。我們認(rèn)為語義=詞+句式。句式是句子成分的不同組合方式。相同詞的不同組合方式大多數(shù)時候語義不同。我們認(rèn)為句子里每個詞都有意義,哪怕是句末語氣助詞。
“你家的地得掃了。”——“你掃了。”
“你能干嘛?”——“你干嘛的?”——“你干嘛啊!”——“你在干嘛?”
以上兩組句子,關(guān)鍵字模糊查詢技術(shù)分不清,我們語義處理可以。因?yàn)殛P(guān)鍵字模糊查詢不處理“的地得”這樣的虛詞,有些連“你我他“”都忽略了。
結(jié)論:不能處理語義的細(xì)微差別是關(guān)鍵字模糊查詢,能處理是語義處理。
3.對一個問題的不同表達(dá)方式的理解也是區(qū)別語義處理和非語義處理的重要標(biāo)志
這一句理解起來稍微有點(diǎn)難。似乎關(guān)鍵字模糊查詢在這方面更擅長一點(diǎn),但關(guān)鍵字模糊查詢是用幾個關(guān)鍵字來代表語義,很不穩(wěn)定,很容易把關(guān)鍵字相同的但語義不同的句子當(dāng)成同樣的語義處理。
我們看一組例子:
“商鞅變法是用什么東西樹立威信的?”
“商鞅變法是借助什么東西樹立威信的?”
“商鞅變法是借用什么東西樹立威信的?”
“商鞅變法是用什么物品樹立威信的?”
“商鞅在變法中是用什么來樹立威信的?”
“商鞅在變法中樹立威信的時候用了什么東西?”
“商鞅在變法中樹立威信的時候使用了什么道具?”
以上幾個句子的意思完全是一樣的,它們的答案統(tǒng)一是“一根木桿”。
所以在知識庫里存其中任何一條,換別的問法也應(yīng)該能得到正確的答案。
有人說關(guān)鍵字模糊查詢也都能做到把以上句子當(dāng)成一個意思處理。我說也許能。但關(guān)鍵是他們處理不了以上句子和“商鞅變法是怎樣樹立威信”這句話之間的差別。
結(jié)論:如果不是在差異處理的基礎(chǔ)上做的語義相同處理,不是真正的語義處理而是關(guān)鍵字模糊查詢。
4.能夠容錯糾錯是語義處理的重要功能,會讓交互更自然
我們的表達(dá)有時候會出錯,有時候是錯誤是出在語音識別的環(huán)節(jié)。語義處理是處理意圖的,應(yīng)該能根據(jù)場景進(jìn)行糾錯。
就像下圖,在運(yùn)動控制場景下,用戶說“天津”“后腿”其實(shí)是表達(dá)錯了。應(yīng)該按照用戶意圖,按照“前進(jìn)”“后退”處理。
結(jié)論:關(guān)鍵字模糊查詢是對字詞的處理,是對信號的處理,不是對語義的處理,容錯性要差一些。
5.只有機(jī)器自己說話不前后矛盾,才是真正做好了語義處理
當(dāng)機(jī)器真正理解了語義,它應(yīng)當(dāng)理解語言之間的矛盾和沖突,理解語言之間的各種關(guān)系。它能產(chǎn)生自己的意圖,并根據(jù)語法規(guī)則組織語言。這樣它才能準(zhǔn)確表達(dá),準(zhǔn)備理解用戶的表達(dá)。但這個非常難。
結(jié)論:語義理解應(yīng)該能根據(jù)語義建立一個有機(jī)的知識庫,知識庫里的知識廣泛鏈接并相互統(tǒng)一。而用關(guān)鍵字模糊查詢技術(shù)做不到這一點(diǎn)。
以上就是我說的語義處理的四大原則:
第一:差異原則。區(qū)分語義的細(xì)微差異。
第二:同一原則。就是把語義相同的句子歸并處理。
第三:模糊原則。要能容錯。
第四:一致原則。就是說話要前后一致,不矛盾。
以上四大原則,我們前兩個原則都做得不錯。第三個原則目前還不太好。第四個難度太大,目前還沒動手。
我們諦聽機(jī)器人是一家技術(shù)公司,雖然成立9個月了,但是能拿出來的產(chǎn)品不多,目前用戶也不多。雖然剛剛跟用戶收到了一些使用費(fèi),但這不是我們的追求。我們期望讓每個企業(yè),每個個人用戶都使用我們的機(jī)器人。讓機(jī)器人替代個人和企業(yè)在虛擬的世界工作。
有朋友提出了平行人的概念,就是在虛擬世界里,有一個虛擬的你,“他”替代你在虛擬世界里完成本該由你完成的工作。比如客服、咨詢、教育,很多在互聯(lián)網(wǎng)上完成的工作都可以在虛擬世界完成。那個虛擬世界就是別人說的平行世界吧!我們目前就在建立這個平行世界。
鈦坦白群友互動:
Q1:彭軍輝老師你好,你們的產(chǎn)品什么時候可以應(yīng)用于智能管家?
彭軍輝: 智能管家這塊我們?nèi)プ鰞?yōu)勢不明顯。
Q2:為什么你們做智能管家優(yōu)勢不明顯?
彭軍輝: 我們嘗試提了一個電視機(jī)機(jī)器人的方案,這個我們認(rèn)為是未來家庭的核心。其實(shí)機(jī)器人未必都是人形的,電視機(jī)完全可以變成機(jī)器人。電視機(jī)機(jī)器人的交互就要復(fù)雜很多,我們?nèi)プ霾庞袃?yōu)勢。人工智能是很龐大的工程,像我們這樣的小公司,先要忙生存,能做的事情還是很少的。
Q3: 智能管家是虛擬服務(wù),也要要多種模型支撐。不是場景語義可以解決的,是嗎老師?
彭軍輝: 智能管家這個概念很模糊。我覺得單純做一個命令式的智能管家一定是沒有人用的。把電視機(jī)做成智能管家,才有機(jī)會。
Q4: 彭總,貴公司是不是和圖靈機(jī)器人的業(yè)務(wù)很相似?。?/strong>
彭軍輝: 我們和圖靈有很多類似的地方。但我們認(rèn)為我們是互聯(lián)網(wǎng)公司,圖靈可能是個機(jī)器人公司。
Q5: 彭總,您認(rèn)為人工智能發(fā)展到極致的時候真的會有自己的思想嗎?
彭軍輝: 我們自己做過一些測試。機(jī)器人完全可以用現(xiàn)有的知識推導(dǎo)出新的知識。比如它看到一個陌生的東西,它不懂,它完全可以憑借自己已有的知識去對待這個陌生的東西。然后在交互中修訂自己的認(rèn)識。如果放任機(jī)器人自己去思考,機(jī)器人真的會獨(dú)立思考的,那樣結(jié)果真的沒法預(yù)測也沒法控制。
Q6: 機(jī)器人自己思考是有哪方面的算法?
彭軍輝:思考其實(shí)有三個層次。在語言層面的思考是最高層次,人類為什么這么聰明,就是人類有復(fù)雜的語言。機(jī)器真正理解了語言,也才能擁有人類的智能。
(本文首發(fā)鈦媒體,根據(jù)北京諦聽機(jī)器人科技有限公司創(chuàng)始人、CEO彭軍輝在鈦坦白上的分享整理)
………………………………………………
昨晚,三位鈦客在鈦坦白人工智能微信群進(jìn)行了精彩的分享,干貨會陸續(xù)發(fā)布:http://www.chcmb.cn/tag/1508094。今晚7點(diǎn),分享繼續(xù)!
鈦坦白第26期:“AI已來”之讓機(jī)器聽懂你的聲音
時間:12月4日-5日
后續(xù)鈦坦白“AI已來”系列還將圍繞“計(jì)算機(jī)視覺” “深度學(xué)習(xí)”“智能醫(yī)療”“智能交通”等等主題組織分享與討論。
報(bào)名入群:在微信公號“鈦媒體”(taimeiti),發(fā)送“鈦坦白”
推薦鈦客、贊助、合作:請與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論
我個人認(rèn)為,商鞅變法那個例子,每句的意思是不太一樣的,但是答案確是統(tǒng)一的。??