深度 | 劉群:基于深度學(xué)習(xí)的自然語(yǔ)言處理,邊界在哪里?

當(dāng)前,深度學(xué)習(xí)之于自然語(yǔ)言處理,有其局限性。那么它所能起作用的邊界在哪里呢?對(duì)此問(wèn)題,我們應(yīng)當(dāng)深思。
近日,在北京語(yǔ)言大學(xué)舉辦的第四屆語(yǔ)言與智能高峰論壇上,華為諾亞方舟實(shí)驗(yàn)室語(yǔ)音語(yǔ)義首席科學(xué)家劉群教授高屋建瓴,細(xì)致分析了深度學(xué)習(xí)時(shí)代NLP的已知與未知。

他從自然語(yǔ)言處理基于規(guī)則、統(tǒng)計(jì)到深度學(xué)習(xí)的范式遷移出發(fā),探討了深度學(xué)習(xí)方法解決了自然語(yǔ)言處理的哪些問(wèn)題以及尚未解決哪些問(wèn)題。

劉群教授認(rèn)為尚未解決的這些問(wèn)題最終是由深度學(xué)習(xí)的四大邊界——數(shù)據(jù)邊界、語(yǔ)義邊界、符號(hào)邊界和因果邊界所共同造成的。要想在這些尚未解決的問(wèn)題上尋找突破,需要從深度學(xué)習(xí)的這些邊界出發(fā),去探索新的解決方案。

這個(gè)報(bào)告主題為《基于深度學(xué)習(xí)的自然語(yǔ)言處理:邊界在哪里?》??芍^是站在 NLP 塔尖上對(duì)整個(gè)領(lǐng)域的復(fù)盤(pán)。

我們一起來(lái)看劉群教授本次的報(bào)告正文:

深度

感謝大會(huì)給我這個(gè)機(jī)會(huì)來(lái)這里跟大家進(jìn)行一次交流。今天我不講我的具體工作,而是講我多年來(lái)研究機(jī)器翻譯、自然語(yǔ)言處理的一些體會(huì)和感想,從更加抽象的層面討論一些問(wèn)題,這些想法不一定成熟,如有不恰當(dāng)?shù)牡胤剑M蠹抑刚?/p>

自然語(yǔ)言處理的范式遷移:從規(guī)則、統(tǒng)計(jì)到深度學(xué)習(xí)

相信大家對(duì)自然語(yǔ)言處理的范式遷移,都深有體會(huì)。以機(jī)器翻譯為例,很多年前大家都是采用基于規(guī)則的方法,基本思想是依靠人來(lái)寫(xiě)規(guī)則并教機(jī)器如何去翻譯。后來(lái),大家也慢慢發(fā)現(xiàn)這條路走不通,因?yàn)槿瞬豢赡軐⑺械囊?guī)則都寫(xiě)窮盡,并且也寫(xiě)不出大量太細(xì)的規(guī)則。

深度

因此大家之后就轉(zhuǎn)向了基于統(tǒng)計(jì)的機(jī)器翻譯方法,即給機(jī)器一堆語(yǔ)料讓機(jī)器自己去學(xué)習(xí)翻譯規(guī)則,不過(guò)它學(xué)到的還是一些符號(hào)層面的規(guī)則,但被賦予了概率。到一定程度后,統(tǒng)計(jì)機(jī)器翻譯就遇到了一些瓶頸,也很難再度提高。

隨著這幾年來(lái)深度學(xué)習(xí)方法的引入,機(jī)器翻譯的水平又有了一個(gè)大幅提高,使得機(jī)器不再在符號(hào)層面做翻譯,而是將整個(gè)推理過(guò)程映射到一個(gè)高維空間中,并在高維空間中進(jìn)行運(yùn)算。不過(guò),我們只能理解輸入輸出而不知道其在高維空間中具體如何進(jìn)行運(yùn)算的,并且機(jī)器自動(dòng)學(xué)習(xí)了什么東西,我們也說(shuō)不太清楚。

 下面我試圖來(lái)探討幾個(gè)問(wèn)題:一是深度學(xué)習(xí)解決了自然語(yǔ)言處理的哪些問(wèn)題?二是還有哪些自然語(yǔ)言處理問(wèn)題是深度學(xué)習(xí)尚未解決的?三是基于深度學(xué)習(xí)的自然語(yǔ)言處理,其邊界在哪里?

深度學(xué)習(xí)解決了自然語(yǔ)言處理的哪些問(wèn)題 

自然語(yǔ)言處理領(lǐng)域有很多難題,此前研究者費(fèi)了好大勁去解決的問(wèn)題,深度學(xué)習(xí)方法出現(xiàn)以后,一些問(wèn)題被很好地解決了,或者雖然還沒(méi)有徹底解決,但是提供一個(gè)很好的框架。這些問(wèn)題主要包括:詞語(yǔ)形態(tài)問(wèn)題、句法結(jié)構(gòu)問(wèn)題、多語(yǔ)言問(wèn)題、聯(lián)合訓(xùn)練問(wèn)題、領(lǐng)域遷移問(wèn)題以及在線學(xué)習(xí)問(wèn)題。這里我主要講下前四個(gè)問(wèn)題,不對(duì)后兩個(gè)問(wèn)題進(jìn)行展開(kāi)。

詞語(yǔ)形態(tài)問(wèn)題

詞語(yǔ)形態(tài)問(wèn)題,即 Morphology,研究的是詞的構(gòu)成。在中文中,它體現(xiàn)在詞的切分上,在英語(yǔ)等大部分其他語(yǔ)言中則主要體現(xiàn)在形態(tài)的分析上。其中詞語(yǔ)切分在包括機(jī)器翻譯在內(nèi)的中文信息處理中,曾是一個(gè)非常令人頭痛的問(wèn)題,我們也花了很多精力去解決。
深度

在基于規(guī)則和基于統(tǒng)計(jì)的機(jī)器翻譯方法下,詞語(yǔ)形態(tài)分析是機(jī)器翻譯首先需要解決的問(wèn)題。

對(duì)于中文而言,由于基于漢字的翻譯效果很差,因而分詞是必須解決的問(wèn)題,也就是說(shuō)如果不做分詞或分詞做得不好,即便用統(tǒng)計(jì)方法,效果也會(huì)很糟糕。然而分詞本身又面臨很多問(wèn)題,因?yàn)橹形脑~語(yǔ)本來(lái)就不是一個(gè)定義很明確的單位,導(dǎo)致分詞缺乏統(tǒng)一的規(guī)范,分詞粒度難以把握。

而中文以外的很多語(yǔ)言都存在形態(tài)問(wèn)題,其中英文的形態(tài)問(wèn)題比較簡(jiǎn)單,因?yàn)橛⒄Z(yǔ)詞的變化比較少。而很多其他語(yǔ)言的變化是很多的,例如法語(yǔ)有四五十種變化,俄語(yǔ)則更多。另外以土耳其和波斯語(yǔ)為例的黏著語(yǔ),一個(gè)詞可能有上千種變化,即一個(gè)詞后面可以加很多種詞綴,這對(duì)于自然語(yǔ)言處理尤其是機(jī)器翻譯而言,是非常棘手的。 

深度

而且對(duì)于這些形態(tài)豐富的語(yǔ)言而言,分析的難度也很大,一般只有語(yǔ)言學(xué)家才能把詞語(yǔ)的形態(tài)說(shuō)得比較清楚。同時(shí),形態(tài)本身其實(shí)是一層結(jié)構(gòu),所有統(tǒng)計(jì)機(jī)器翻譯都建立在某種結(jié)構(gòu)的基礎(chǔ)上,例如詞語(yǔ)層、短語(yǔ)層、句法層,或者說(shuō)基于詞的、基于短語(yǔ)、基于句法的方法,那如果想在這些結(jié)構(gòu)中再加入一層形態(tài)結(jié)構(gòu),統(tǒng)計(jì)機(jī)器翻譯的建模就會(huì)變得非常困難。

在統(tǒng)計(jì)機(jī)器翻譯時(shí)代,復(fù)雜形態(tài)的語(yǔ)言處理非常困難,對(duì)此有一個(gè)比較著名的方法叫做 Factored statistical machine translation,即基于要素的翻譯方法,就是將一個(gè)詞分成很多要素,然后分別翻譯每個(gè)要素,最后匯總起來(lái)。不過(guò)我很不喜歡這個(gè)方法,因?yàn)槲艺J(rèn)為它不夠優(yōu)雅,且非常冗余,效果也不是很好。
 深度

然而語(yǔ)言形態(tài)這個(gè)問(wèn)題在神經(jīng)網(wǎng)絡(luò)框架下就基本不成問(wèn)題了,這個(gè)領(lǐng)域的研究者對(duì)中文分詞的討論也不太多了,雖然也有一些關(guān)于如何在神經(jīng)網(wǎng)絡(luò)框架下將詞分得更好的探索,我也看到過(guò)幾篇挺有意思的相關(guān)文章,但是對(duì)于機(jī)器翻譯而言,中文分詞已經(jīng)構(gòu)不成根本性挑戰(zhàn)了,因?yàn)楝F(xiàn)在機(jī)器翻譯基本上可以不做分詞了,大部分中文機(jī)器翻譯系統(tǒng)基本上基于漢字來(lái)實(shí)現(xiàn),性能跟基于詞的系統(tǒng)比沒(méi)有太大區(qū)別。

針對(duì)形態(tài)復(fù)雜的語(yǔ)言,現(xiàn)在提出了一種基于subword(子詞)的模型或基于character(字符)的機(jī)器翻譯模型,效果也非常好。我認(rèn)為這是一個(gè)統(tǒng)一且優(yōu)雅的方案。 

自動(dòng)化所張家俊老師他們的一篇論文就介紹了基于子詞的模型方案的解決思路,如下圖所示,第一行是標(biāo)準(zhǔn)的中文,第二行是做了分詞以后的?,F(xiàn)在一般系統(tǒng)基于漢字即可,就是第三行,但是我們也可以做分詞,比如第五行做BPE,將“繁花似錦”分成“繁花”、“似”、“錦”這三個(gè)子詞部分。
 深度

基于字符的模型則是從字母的層面來(lái)做,對(duì)英文一個(gè)字母一個(gè)字母地建模和翻譯,翻譯效果也非常好。所以我認(rèn)為在神經(jīng)網(wǎng)絡(luò)框架下,形態(tài)問(wèn)題基本上不是什么太大的問(wèn)題。

深度  
句法結(jié)構(gòu)問(wèn)題

下面看句法結(jié)構(gòu)問(wèn)題。

無(wú)論是在基于規(guī)則還是基于統(tǒng)計(jì)的機(jī)器翻譯框架下,句法分析對(duì)機(jī)器翻譯的質(zhì)量都起著重要的影響作用。其中在基于統(tǒng)計(jì)的機(jī)器翻譯中,基于短語(yǔ)的方法獲得了很大成功,因此現(xiàn)在大部分統(tǒng)計(jì)方法都不做句法分析。

但是對(duì)于中英文這種語(yǔ)法結(jié)構(gòu)相差較大的語(yǔ)言而言,做句法分析要比不做句法分析的結(jié)果好很多,所以句法分析還是很重要的。不過(guò)句法分析難度很大,一方面會(huì)帶來(lái)模型復(fù)雜度的增加,另一方面句法分析本身存在的錯(cuò)誤會(huì)影響翻譯的性能。

而目前在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯框架下,神經(jīng)網(wǎng)絡(luò)可以很好地捕捉句子的結(jié)構(gòu),無(wú)需進(jìn)行句法分析,系統(tǒng)可以自動(dòng)獲得處理復(fù)雜結(jié)構(gòu)句子翻譯的能力。

大概 2005 年至 2015 年期間,我一直在做基于統(tǒng)計(jì)的機(jī)器翻譯,也就是研究如何在統(tǒng)計(jì)方法中加入句法方法,在這么多年的研究中,我們提出了很多種方法也寫(xiě)了很多篇論文,下圖中的這些模型概括了我們之前提出的那些方法。
 深度
我們的工作主要聚焦于樹(shù)到樹(shù)、樹(shù)到串的方法。美國(guó)和歐洲很多學(xué)者在做串到樹(shù)的方法,樹(shù)到樹(shù)的方法做得都比較少。另外我們還做了一些森林方法的研究,即如何避免句法分析錯(cuò)誤。不過(guò),這些問(wèn)題在神經(jīng)網(wǎng)絡(luò)框架下基本上也不存在了。

舉例來(lái)說(shuō),“第二家加拿大公司因被發(fā)現(xiàn)害蟲(chóng)而被從向中國(guó)運(yùn)輸油菜籽的名單中除名”是一個(gè)好幾層的嵌套結(jié)構(gòu),但是機(jī)器翻譯的結(jié)果“The second Canadian company was removed from the list of transporting rapeseed to China due to the discovery of pests”在結(jié)構(gòu)上翻譯得很好。下面一個(gè)例子在結(jié)構(gòu)上也沒(méi)有什么錯(cuò)誤。
 深度
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法是沒(méi)有用到任何句法知識(shí)的,僅憑從網(wǎng)絡(luò)中學(xué)到的復(fù)雜結(jié)構(gòu)就能實(shí)現(xiàn)這么好的效果,這樣的話,對(duì)機(jī)器翻譯來(lái)說(shuō)做句法分析就沒(méi)有太大意義了。當(dāng)然句法結(jié)構(gòu)并不是完全沒(méi)有意義,現(xiàn)在也有不少人在研究,但是我認(rèn)為這已經(jīng)不再是機(jī)器翻譯的一個(gè)主要難點(diǎn)了。

多語(yǔ)言問(wèn)題

 曾經(jīng),我們機(jī)器翻譯研究者的一個(gè)理想,就是在基于規(guī)則的時(shí)代實(shí)現(xiàn)多語(yǔ)言翻譯。當(dāng)時(shí)很多人都在做多語(yǔ)言翻譯,甚至是中間語(yǔ)言翻譯,如下圖,中間語(yǔ)言翻譯其實(shí)是一個(gè)理想的方案,因?yàn)槎嗾Z(yǔ)言的互相翻譯通過(guò)某個(gè)中間語(yǔ)言來(lái)實(shí)現(xiàn),是能夠節(jié)省很多成本的:如果使用中間語(yǔ)言,開(kāi)發(fā)系統(tǒng)的數(shù)量隨翻譯語(yǔ)言的數(shù)量呈線性增長(zhǎng);否則,開(kāi)發(fā)系統(tǒng)的數(shù)量隨翻譯語(yǔ)言的數(shù)量呈平方增長(zhǎng)。

但在基于規(guī)則方法的機(jī)器翻譯時(shí)代,中間語(yǔ)言的方法是不可行的,正如日本機(jī)器翻譯專家 Makoto Nagao 教授曾經(jīng)說(shuō)過(guò)的一句話,當(dāng)我們使用中間語(yǔ)言的時(shí)候,分析階段的輸出結(jié)果必須采用這樣一種形式:這種形式能夠被所有不同語(yǔ)言的機(jī)器翻譯所使用。然而這種細(xì)微程度實(shí)際上是不可能做到的。

深度  

在基于統(tǒng)計(jì)方法的機(jī)器翻譯時(shí)代,普遍采用的是 Pivot 方法,即在兩個(gè)語(yǔ)言的互譯中,先將所有語(yǔ)言翻譯成英語(yǔ),再翻譯成另一種語(yǔ)言。這樣的話就能夠使得多語(yǔ)言機(jī)器翻譯成為可能。

但是這種方法也存在一些問(wèn)題,即會(huì)導(dǎo)致錯(cuò)誤傳播和性能下降。另一方面,我們做多語(yǔ)言翻譯的另一個(gè)想法是希望能夠利用多語(yǔ)言之間互相增強(qiáng)的特點(diǎn),即很多語(yǔ)言有相似的特點(diǎn),因而如果無(wú)法利用上這種增強(qiáng)的話,這種方法就并非那么理想了。

在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯時(shí)代,谷歌就直接利用中間語(yǔ)言的方法做出了一個(gè)完整且龐大的系統(tǒng),將所有語(yǔ)言都放在一起互相翻譯以及將所有文字都放在一起編碼。雖然這個(gè)系統(tǒng)目前還不是很完美,但是距離理想的 Interlingua 已經(jīng)很接近了。

深度

之后,谷歌又推出了Multilingual BERT,將104種語(yǔ)言全部編碼到一個(gè)模型里面,這在原來(lái)是不可想象的。
 深度

雖然這兩個(gè)方法現(xiàn)在還無(wú)法徹底解決多語(yǔ)言問(wèn)題,但是它們整個(gè)框架非常漂亮,效果也非常好,所以我覺(jué)得針對(duì)這兩個(gè)方面,我們還有很多事情可以做。

聯(lián)合訓(xùn)練問(wèn)題

在統(tǒng)計(jì)機(jī)器翻譯時(shí)代,因?yàn)楦髂K都是互相獨(dú)立訓(xùn)練的,導(dǎo)致錯(cuò)誤傳播的問(wèn)題很嚴(yán)重,所以聯(lián)合訓(xùn)練也成為了提高性能的有效手段。

但聯(lián)合訓(xùn)練本身又會(huì)導(dǎo)致模型復(fù)雜度的大大增加,使得開(kāi)發(fā)和維護(hù)變得困難。同時(shí)由于搜索范圍急劇擴(kuò)大,系統(tǒng)開(kāi)銷也嚴(yán)重增加。不僅如此,由于模塊太多,只能有限的模塊進(jìn)行聯(lián)合訓(xùn)練,所以不可能將所有模塊都納入聯(lián)合訓(xùn)練。

而在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯框架下,端到端訓(xùn)練成為標(biāo)準(zhǔn)模式,所有模塊構(gòu)成一個(gè)有機(jī)的整體,針對(duì)同一個(gè)目標(biāo)函數(shù)同時(shí)訓(xùn)練,有效避免了錯(cuò)誤傳播,提高了系統(tǒng)性能。

 還有哪些自然語(yǔ)言處理問(wèn)題深度學(xué)習(xí)尚未解決?

 由于深度學(xué)習(xí)的應(yīng)用,我們以前費(fèi)很大勁去做的一些事情,現(xiàn)在基本上不需要再去做了。但是深度學(xué)習(xí)本身還是存在很多問(wèn)題的,包括資源稀缺問(wèn)題、可解釋性問(wèn)題、可信任問(wèn)題、可控制性問(wèn)題、超長(zhǎng)文本問(wèn)題以及缺乏常識(shí)問(wèn)題等等。

資源稀缺問(wèn)題 

資源稀缺問(wèn)題大家都很清楚,然而這個(gè)問(wèn)題遠(yuǎn)比我們大部分人想象的要嚴(yán)重得多。一般而言,對(duì)于常見(jiàn)語(yǔ)言,機(jī)器翻譯可以做得很好,然而現(xiàn)實(shí)世界中有幾千種語(yǔ)言,曾經(jīng)就有一篇報(bào)告統(tǒng)計(jì)出 7000 多種語(yǔ)言,當(dāng)然有文字的語(yǔ)言并沒(méi)有這么多,其中絕大部分語(yǔ)言都是資源稀缺語(yǔ)言,并且絕大多數(shù)專業(yè)領(lǐng)域?qū)嶋H上也都是資源稀缺的領(lǐng)域。
 
以下面針對(duì)醫(yī)療領(lǐng)域的 WMT 2019 評(píng)測(cè)為例,它的語(yǔ)料庫(kù)包括 3000多個(gè)文檔、4 萬(wàn)多個(gè)句子。在機(jī)器翻譯領(lǐng)域,幾百萬(wàn)個(gè)句子的語(yǔ)料已經(jīng)是小數(shù)量的了,商業(yè)系統(tǒng)基本上都有好幾千萬(wàn)句子的訓(xùn)練語(yǔ)料。然而這里才4萬(wàn)多個(gè)句子,是存在嚴(yán)重資源稀缺問(wèn)題的,翻譯的質(zhì)量也非常糟糕,基本上是不可接受的。另外從數(shù)據(jù)上來(lái)看,西班牙語(yǔ)有10萬(wàn)多個(gè),法語(yǔ)有7萬(wàn)多個(gè),中文沒(méi)有,也就是說(shuō)基本收集不到中文醫(yī)療領(lǐng)域的翻譯數(shù)據(jù)。 
深度
在工業(yè)界,想要解決的大部分問(wèn)題都是沒(méi)有標(biāo)注語(yǔ)料的,需要自己去標(biāo),然而也基本上沒(méi)有那么多錢(qián)去對(duì)很多的語(yǔ)料做標(biāo)注。所以資源稀缺問(wèn)題要比我們想象的嚴(yán)重得多。

資源稀缺對(duì)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的影響很大。從下圖來(lái)看,上面兩條線指基于統(tǒng)計(jì)的機(jī)器翻譯方法,下面這條線指神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法,我們可以看到神經(jīng)網(wǎng)絡(luò)的方法只有在語(yǔ)料很多的情況下,表現(xiàn)才能超過(guò)統(tǒng)計(jì)方法,在語(yǔ)料不夠大時(shí),表現(xiàn)并不比統(tǒng)計(jì)方法更好。

深度

可解釋性問(wèn)題和可信任問(wèn)題

我們給神經(jīng)網(wǎng)絡(luò)輸入一個(gè)東西,它就會(huì)輸出一個(gè)結(jié)果,然而其在高維空間的計(jì)算過(guò)程我們是不知道的,這就存在可解釋問(wèn)題。但我認(rèn)為這個(gè)問(wèn)題的嚴(yán)重性要視情況而定,我們有時(shí)候需要解釋性,卻并不是所有時(shí)候都需要解釋性,比如人腦做決定,有時(shí)間可能只是靈機(jī)一動(dòng)的靈感,至于怎么來(lái)的,人自己都不一定能夠解釋得清楚。

而可解釋性帶來(lái)的一個(gè)更重要的問(wèn)題是可信任問(wèn)題。一些關(guān)鍵性領(lǐng)域如醫(yī)療領(lǐng)域,比如說(shuō)病人看病,如果系統(tǒng)給出一個(gè)癌癥的診斷而無(wú)法給出理由的話,病人是不敢治療的。所以在這些關(guān)鍵性的應(yīng)用上,可解釋性是非常重要的,因?yàn)檫@個(gè)問(wèn)題會(huì)導(dǎo)致信任問(wèn)題。

機(jī)器翻譯中的一個(gè)可信任問(wèn)題是翻譯錯(cuò)誤。比如說(shuō)重要的人名、地名和機(jī)構(gòu)名是不應(yīng)該翻錯(cuò)的,以翻譯美國(guó)政府的一個(gè)工作報(bào)告為例,如果使用之前的語(yǔ)料來(lái)訓(xùn)練,機(jī)器就會(huì)直接將美國(guó)總統(tǒng)(特朗普)翻譯成布什總統(tǒng)了,這就是一個(gè)很嚴(yán)重的錯(cuò)誤了。 

第二個(gè)可信任問(wèn)題是翻譯出來(lái)的意思與原意相反,這在機(jī)器翻譯中也很常見(jiàn),且較難避免,因?yàn)檫@種意思相反的表達(dá)在語(yǔ)料庫(kù)中的統(tǒng)計(jì)特征是非常接近的,都是在陳述同一件事情,因此在機(jī)器翻譯中很容易導(dǎo)致翻譯出與原意相反的結(jié)果。

第三個(gè)可信任問(wèn)題則是機(jī)器翻譯犯一些過(guò)于幼稚的、完全不該犯的問(wèn)題,這就會(huì)直接給人帶來(lái)不信任感。

可控制性問(wèn)題

由于系統(tǒng)有時(shí)候的效果總不能令人滿意或總出現(xiàn)錯(cuò)誤,所以我們希望系統(tǒng)變得可控,即知道怎么對(duì)其進(jìn)行修改從而避免犯這種錯(cuò)誤。

基于規(guī)則的機(jī)器翻譯方法中,我們是可以通過(guò)修改規(guī)則來(lái)糾正;基于統(tǒng)計(jì)的機(jī)器翻譯方法,雖然改的方式繞一點(diǎn),但是統(tǒng)計(jì)的數(shù)據(jù)都是可解釋的,我們可以在其中加上一個(gè)短語(yǔ)表來(lái)糾正,而在神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)方法中,我們幾乎是不能進(jìn)行修改的。

比如對(duì)于重要的人名、地名、機(jī)構(gòu)名、術(shù)語(yǔ),我們希望機(jī)器嚴(yán)格按照給定的方式進(jìn)行翻譯,不能隨便亂翻。我之前在愛(ài)爾蘭的時(shí)候帶學(xué)生做過(guò)這方面的比較早期的工作,目前的引用量還比較高,現(xiàn)在我們對(duì)這項(xiàng)工作進(jìn)行了一些改進(jìn),可以比較好地解決機(jī)器翻譯的可控制性問(wèn)題,但是這項(xiàng)工作還僅適用于機(jī)器翻譯這一特例,而無(wú)法做到通用化去解決神經(jīng)網(wǎng)絡(luò)在整個(gè)自然語(yǔ)言處理領(lǐng)域存在的可控制性問(wèn)題。

超長(zhǎng)文本問(wèn)題

現(xiàn)在的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯在處理長(zhǎng)文本方法取得了很大的進(jìn)步。早期的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)常被人詬?。憾叹渥臃g得好但長(zhǎng)句子卻翻譯得很糟糕。而現(xiàn)在,這種情況已經(jīng)得到了非常大的改善,一般的長(zhǎng)句都翻譯得不錯(cuò),但漏翻等小錯(cuò)誤還是不可避免。

現(xiàn)在基于長(zhǎng)文本訓(xùn)練的語(yǔ)言模型如BERT、GPT,其訓(xùn)練的文本單位一般都是幾百字到上千字,所以長(zhǎng)度在這個(gè)范圍內(nèi)的文本處理沒(méi)有太大問(wèn)題,并且 GPT生成一千字以內(nèi)的文本都可以生成得非常流暢。

目前機(jī)器翻譯能夠處理比較長(zhǎng)的文本,但是不能說(shuō)長(zhǎng)文本問(wèn)題就解決了,它本身還存在很多挑戰(zhàn):

  • 一個(gè)是基于篇章的機(jī)器翻譯問(wèn)題,不光是我們,學(xué)術(shù)界還有很多同行都在研究這個(gè)問(wèn)題?;谄碌臋C(jī)器翻譯實(shí)驗(yàn)證明,對(duì)改進(jìn)翻譯質(zhì)量起作用的上下文只有前1-3個(gè)句子,更長(zhǎng)的上下文反倒會(huì)降低當(dāng)前句子的翻譯質(zhì)量。按理來(lái)說(shuō),上下文更長(zhǎng),機(jī)器翻譯的效果應(yīng)該是更好的,那為什么反而翻譯得更差呢?這是不合理的。
  • 另一個(gè)是預(yù)訓(xùn)練語(yǔ)言模型問(wèn)題?,F(xiàn)在機(jī)器翻譯的訓(xùn)練長(zhǎng)度一般是幾百字到上千字,然而實(shí)際處理的文本可能不止一千字,比如說(shuō)一篇八頁(yè)的英文論文,起碼都兩三千字了。因此預(yù)訓(xùn)練語(yǔ)言模型在實(shí)際處理更長(zhǎng)文本的時(shí)候,還是會(huì)遇到很多問(wèn)題,這種情況下,語(yǔ)言模型消耗計(jì)算資源巨大,計(jì)算所需時(shí)空消耗會(huì)隨著句子長(zhǎng)度呈平方或者三次方增長(zhǎng),所以現(xiàn)有模型要想支持更長(zhǎng)的文本,還有很多問(wèn)題尚待解決。

缺乏常識(shí)問(wèn)題

這里我以不久前去世的董振東先生提供的例子為例(如下圖所示),“bank”是翻譯中一個(gè)經(jīng)典的歧義詞,有“銀行”和“岸”的意思,在什么語(yǔ)境下翻譯成哪個(gè)意思,對(duì)于人來(lái)說(shuō)很容易理解,但是即使有 fishing、water這樣的相關(guān)提示詞存在,谷歌翻譯器還是將這個(gè)詞翻譯成了“銀行”。在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯時(shí)代,這種常識(shí)性錯(cuò)誤依舊比較普遍存在。 
深度

另外一個(gè)例子就是 GPT 的文本生成。GPT 在文本生成方面已經(jīng)做得很好了,然而即便如此,還是會(huì)犯很多常識(shí)性的錯(cuò)誤。以下面這個(gè)經(jīng)典案例為例,前面人類輸入的句子是“在一項(xiàng)研究中,科學(xué)家們發(fā)現(xiàn)了一群獨(dú)角獸,它們生活在安第斯山脈一個(gè)偏遠(yuǎn)的還沒(méi)被開(kāi)發(fā)山谷中,更令人驚訝的是這些獨(dú)角獸會(huì)說(shuō)一口流利的英語(yǔ)”,其中“獨(dú)角獸會(huì)說(shuō)一口流利的英語(yǔ)”在現(xiàn)實(shí)生活中是荒唐、完全不可能的事。然而,GPT系統(tǒng)就根據(jù)這一句話生成了一個(gè)故事。
 深度

故事寫(xiě)得很漂亮,但是存在錯(cuò)誤,比如第一句就是錯(cuò)誤的,“科學(xué)家根據(jù)它們獨(dú)特的角,將它們命名為Ovid’s Unicorn,這些有著銀色的四個(gè)角的獨(dú)角獸是原來(lái)科學(xué)家所不曾見(jiàn)過(guò)的”這句話本身就矛盾,獨(dú)角獸怎么會(huì)有四個(gè)角呢?這是很明顯的一個(gè)邏輯錯(cuò)誤。所以常識(shí)問(wèn)題,在機(jī)器翻譯中依舊是一個(gè)非常嚴(yán)重的問(wèn)題。

基于深度學(xué)習(xí)的自然語(yǔ)言處理,其邊界在哪里? 

那自然語(yǔ)言處理中哪些問(wèn)題是可以解決的,哪些是不可以解決的呢?這就涉及到它的邊界問(wèn)題。我認(rèn)為深度學(xué)習(xí)有幾個(gè)重要的邊界:數(shù)據(jù)邊界、語(yǔ)義邊界、符號(hào)邊界和因果邊界。

數(shù)據(jù)邊界

數(shù)據(jù)邊界是限制當(dāng)前機(jī)器翻譯技術(shù)發(fā)展的約束之一,這個(gè)比較好理解,就是指數(shù)據(jù)不夠,這是現(xiàn)有方法無(wú)法解決的。

語(yǔ)義邊界

人工智能在很多領(lǐng)域都大獲成功,其中在圍棋、電子競(jìng)技等項(xiàng)目上獲得的成功最大,包括早期還沒(méi)有深度學(xué)習(xí)乃至統(tǒng)計(jì)方法時(shí),在 Winograd 系統(tǒng)上就很成功了,為什么會(huì)取得這么大的成功?

我認(rèn)為這是因?yàn)檫@些領(lǐng)域能夠?qū)陀^世界的問(wèn)題進(jìn)行精確建模,因此能做得很好;而現(xiàn)在自然語(yǔ)言處理系統(tǒng)大部分都無(wú)法對(duì)客觀世界進(jìn)行精確建模,所以很難做好。另外比如像智能音箱、語(yǔ)音助手系統(tǒng)能夠取得一定成果,很大程度上也是因?yàn)檫@些系統(tǒng)對(duì)應(yīng)著明確定義的任務(wù),能對(duì)物理世界建模,不過(guò)一旦用戶的問(wèn)話超出這些預(yù)定義的任務(wù),系統(tǒng)就很容易出錯(cuò)。 

機(jī)器翻譯的成功是一個(gè)比較特殊的例子,這是因?yàn)樗脑凑Z(yǔ)言和目標(biāo)原因的語(yǔ)義都是精確對(duì)應(yīng)的,所以它只要有足夠的數(shù)據(jù)而并不需要其他的支撐,就能取得較好的效果。

 現(xiàn)在的自然語(yǔ)言處理系統(tǒng)大部分,還只是流于對(duì)詞語(yǔ)符號(hào)之間的關(guān)系建模,沒(méi) 有對(duì)所描述的問(wèn)題語(yǔ)義進(jìn)行建模,即對(duì)客觀世界建模。而人理解語(yǔ)言的時(shí)候,腦子里一定會(huì)形成一個(gè)客觀世界的影像,并在理解影像后再用自己的語(yǔ)言去描述自己想說(shuō)的事情。 

 實(shí)際上,自然語(yǔ)言處理的理想狀態(tài)應(yīng)該是能夠?qū)陀^世界進(jìn)行描述并建模,然而對(duì)客觀世界建模相當(dāng)復(fù)雜,實(shí)現(xiàn)并不容易。以顏色這個(gè)屬性為例,可以用三個(gè) 8 位數(shù)進(jìn)行建模,可以組合出數(shù)千萬(wàn)種顏色,但刻畫(huà)顏色的詞語(yǔ)只有數(shù)十個(gè),詞語(yǔ)和顏色模型的對(duì)應(yīng)關(guān)系很難準(zhǔn)確地進(jìn)行描述。 

在機(jī)器翻譯的研究中,對(duì)客觀世界建模并不新鮮,早期的本體或者知識(shí)圖譜、語(yǔ)義網(wǎng)絡(luò),都是人類專家試圖對(duì)客觀世界建立通用性模型的一種長(zhǎng)期努力,其中一項(xiàng)集大成的成果便是知識(shí)圖譜,但是它目前還沒(méi)有辦法很好地應(yīng)用到深度學(xué)習(xí)中來(lái)。不過(guò),我認(rèn)為這是一個(gè)很值得探索的方向。

總而言之,我認(rèn)為自然語(yǔ)言處理的一個(gè)理想的改進(jìn)方向就是做世界模型或語(yǔ)義模型,換句話說(shuō),就是不僅僅只做文本間的處理,還必須落地到現(xiàn)實(shí)世界中,去對(duì)現(xiàn)實(shí)世界建模,而知識(shí)圖譜這是其中一個(gè)較為值得探索的具體方向。

符號(hào)邊界

心理學(xué)家將人的心理活動(dòng)分為潛意識(shí)和意識(shí),用我的話來(lái)理解就是,可以用語(yǔ)言描述的心理活動(dòng)稱作意識(shí),而無(wú)法用語(yǔ)言描述的心理活動(dòng)稱為潛意識(shí)。

神經(jīng)網(wǎng)絡(luò)實(shí)際上則是潛意識(shí)的行為,可以輸入語(yǔ)言和輸出語(yǔ)言表達(dá),但是無(wú)法對(duì)整個(gè)推理和計(jì)算過(guò)程進(jìn)行描述,這本身就是它的一個(gè)重要缺陷。 

舉一個(gè)簡(jiǎn)單的例子:使用有限狀態(tài)自動(dòng)機(jī),可以精確地定義一些特定的表示形式,如數(shù)詞、年份、網(wǎng)址等等,但再好的神經(jīng)網(wǎng)絡(luò)也很難準(zhǔn)確地學(xué)習(xí)到有限狀態(tài)自動(dòng)機(jī)的表達(dá)能力,這是很多實(shí)用的自然語(yǔ)言處理系統(tǒng)仍然離不開(kāi)符號(hào)這種規(guī)則方法的原因。

因果邊界 

人類對(duì)客觀世界中發(fā)生的事情中的因果關(guān)系都有明確的理解。所以很容易去蕪存真,抓住問(wèn)題的本質(zhì)。

神經(jīng)網(wǎng)絡(luò)無(wú)法做到這一點(diǎn),它根據(jù)數(shù)據(jù)學(xué)習(xí)到的東西去做出判斷而并沒(méi)有理解真正的因果關(guān)系,即并不知道哪些因素是事情發(fā)生的真正原因,哪些是輔助性的判斷依據(jù),因而很容易做出錯(cuò)誤的判斷 。

實(shí)際上,僅僅根據(jù)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行推斷,很難得到真正的因果關(guān)系。真正的因果關(guān)系,只有通過(guò)精心設(shè)計(jì)的實(shí)驗(yàn)才能得出,例如藥物的有效性,美國(guó)、中國(guó)藥物局都需要花上幾十年的時(shí)間做實(shí)驗(yàn),最終才能確定出一個(gè)因果關(guān)系,相當(dāng)不容易。

今天我講了基于深度學(xué)習(xí)的自然語(yǔ)言處理依舊面臨的幾個(gè)問(wèn)題,而我認(rèn)為這些問(wèn)題最終是由我前面提到的四個(gè)邊界造成的,并且不是由邊界中的某一個(gè)造成,而是由多個(gè)邊界的共同干擾所造成的。對(duì)此,我用一個(gè)關(guān)系圖來(lái)描述這種對(duì)應(yīng)關(guān)系,如下圖所示。
 深度

附:?jiǎn)柎鸩糠?/h3>

聽(tīng)眾提問(wèn):在統(tǒng)計(jì)機(jī)器翻譯時(shí)代,有分詞分析、句法分析以及語(yǔ)義分析等共性任務(wù),那在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯時(shí)代是否也有這樣一些共性任務(wù)呢?

劉群:顯然是有的。一個(gè)是預(yù)訓(xùn)練語(yǔ)言模型,它實(shí)際上就是在將語(yǔ)言當(dāng)成一個(gè)共性任務(wù)來(lái)處理,其之所以現(xiàn)在取得這么大的成功,我認(rèn)為某種程度上就是因?yàn)檫@種共性任務(wù)的處理方式。

第二個(gè)是知識(shí)圖譜,它其實(shí)也是一種共性任務(wù),這個(gè)領(lǐng)域的研究者做了這么多年的研究,我認(rèn)為是非常有意義的,所以我們現(xiàn)在也在想辦法將知識(shí)圖譜和自然語(yǔ)言處理結(jié)合起來(lái)做研究。

另外在手機(jī)助手、音箱等語(yǔ)音對(duì)話系統(tǒng)中,也能夠體現(xiàn)這種共性任務(wù),比如說(shuō)系統(tǒng)中的多個(gè)技能,包括控制家電、播放音樂(lè)等,如果進(jìn)行單個(gè)處理的話,各項(xiàng)技能之間會(huì)“打架”,因此就需要將這些問(wèn)題進(jìn)行共性任務(wù)處理,這樣的話就會(huì)變得非常復(fù)雜,所以對(duì)話系統(tǒng)在這種共性任務(wù)上的研究,是比較值得探索的。

來(lái)源 | 雷鋒網(wǎng)
作者 | 叢末

Share this article:

Facebook
Twitter
LinkedIn
WhatsApp

More articles