企業微信
酷網科技公司
當前位置: 新聞中心  >>  瀏覽文章
時間:2016年10月03日 信息來源:互聯網

谷歌神經網絡翻譯會是機器翻譯 看google工程師怎么說。

Google 翻譯毫無疑問是目前最好的機器翻譯工具沒有之一,如果還有什么能夠超越 Google Translation 那也一定是它自己。

當兩天前 Google 推出了全新的整合神經網絡的翻譯工具——GNMT(Google Neural Machine Translation)谷歌神經機器翻譯系統,并且這一系統將最先投入到最困難的漢英互譯領域時,科技圈炸了鍋。

在 Google Neural Machine Translation 推出的第二天,「極客公園」受邀來到 Google 中國和來自 Google Brain 團隊的軟件工程師陳智峰聊了聊 GNMT 和機器翻譯的未來……

如果機器翻譯的未來注定是無限接近于人,那這個未來一定屬于「神經網絡機器翻譯」。

新舊對比,神經網絡是機器翻譯的「未來之匙」

谷歌神經機器翻譯(GNMT:GoogleNeural Machine Translation)系統實現了到目前為止機器翻譯質量的最大提升。

相比于谷歌之前基于短語的機器翻譯(PBMT:Phrase-Based MachineTranslation),GNMT 需要的設計工程量更少,同時翻譯效果更好,講道理的說 GNMT 的技術將把機器翻譯帶到一個全新的紀元。

過去的 PBMT 最讓人頭大的地方在于句子語序,英文到中文的翻譯過去主要存在的問題就是詞序問題。之前 PBMT 基于短語的翻譯方式是先把句子分成一個個短語和單詞,然后獨立翻譯,最后對翻譯出來的獨立短語解釋進行邏輯整理,變成句子。當東亞語言翻譯成歐洲語言時語序會有很大變化,單個翻譯再調整語序的系統復雜繁瑣且容易出錯。

而 GNMT 則是將整個句子視作翻譯單元,對句子中的每一部分進行帶有邏輯的關聯翻譯,翻譯每一個字或單詞時都包含著整句話的邏輯。

通俗的講,如果將翻譯比作把食物從生變熟,那 PBMT 像把一顆白菜切碎了燒熟再拼湊起來,而 GNMT 則是將整顆白菜放到鍋里煮,變熟后最大程度保持了邏輯原貌。

在使用人類對對比評分指標時,相較于之前也實現了極大的提高,在多個樣本的翻譯中,神經翻譯系統將誤差降低了 55%-85%,甚至更高。

Google-Translate-mit-Neuronalen-Netzen-1475065942-0-12.jpg

在特定的條件下單句的翻譯已經接近于人類,谷歌翻譯團隊會用一些很特別的句子去測試GNMT,例如:「小偷偷偷偷東西」,GNMT 對于這樣類似的特殊句子已經能夠準確翻譯。

而 RNN 則是神經翻譯系統中最核心的技術,也是讓 GNMT 與眾不同的關鍵。

快速看懂什么是 RNN——機器翻譯之心

RNN(RecurrentNeural Network)被稱為循環神經網絡,是機器深度學習的一種人工神經網絡,這種網絡的本質特征是在處理單元之間既有內部的反饋連接又有前饋連接它是一個反饋動態系統,RNN 一次處理一個輸入序列元素,同時維護網絡中隱式單元中隱式包含的過去時刻序列元素的歷史信息和「狀態向量」,比前饋神經網絡具有更強的動態行為和計算能力……

12.PNG

上面這段話相信很多人都看不懂,所以我們換個說人話的表達方式。

傳統多層感知神經單元包含了「輸入(Input)」、「處理計算(Hidden)」和「輸出(Output)」三個部分,模仿人類神經原理。

而 RNN 在傳統的多層感知機基礎上跟時間沾上邊了,下一時間點的「處理計算」會受上一個時間點的影響,會根據上一個輸入輸出的結果來調整當前的處理計算方式,這就讓本來各自獨立進行計算的神經網絡有了前后邏輯關聯的能力。

直觀體現就是 GNMT 在 Google 官方的介紹中提到的——Attention 機制,為了在每一步都生成翻譯正確的詞,翻譯解碼器重點考慮與生成英語詞最相關的漢語權重分布(「注意(Attention)」,藍色鏈接的透明度表示解碼器對一個被編碼的詞的關聯程度)。

0.gif

所以谷歌神經網絡翻譯可以把一整句話作為翻譯單元,翻譯每一個字詞時都會考慮到前面已有的所有字詞含義。翻譯第二個詞時考慮第一個詞的含義,翻譯第三個詞時考慮前兩個,第四個詞考慮前三個……以此類推,于是 GNMT 就實現了以句子為翻譯單元,翻譯結果也更加有邏輯性

RNN 被發現可以很好的預測句子中下一個字符或下一個單詞,例如在某時刻閱讀英語句子中的單詞后,將會訓練一個英語的「編碼器」網絡,表現為翻譯首單詞的概率分布。如果選擇一個首單詞作為輸入,將會輸出翻譯的句子中第二個單詞的概率分布,并直到停止選擇為止。

不過原生的 RNN 會遇到一個很大的問題,叫做 The vanishing gradient problem for RNNs,也就是后面時間的節點對于前面時間的節點感知力下降,說白了就是健忘,網絡一深就沒法訓練了,而為了解決這個問題用到的就叫 LSTM,引入了簡單來說就是你不是健忘嗎?給你拿個小本子把事記上。

GNMT 的神經網絡就是運用了帶有 8個編碼器和 8 個解碼器的深度 LSTM 網絡組成,與其說 LSTM 是一種特殊 RNN 結構,倒不如說 LSTM 是 RNN 的改良版版,多了記憶單元。?

NMT 的前世今生

這是 GNMT 第一次正式上線,這也是第一次在傳統的自然語言領域這么大規模使用新的深度學習技術,且這一次最先涉足中英領域。

當問起為什么選擇最先從中英領域開始,Google 的回答主要是兩個基本考慮:1、中英互譯的需求量很大,且翻譯難度很高,2、整個項目開發參與者中有很多中國同事,對項目開發幫助較大。?

而其實早在三年前 Google brain 就很想做了這件事了,但當時軟件和硬件都不能夠很好的支持,直到后來開發出了 Tensorflow 使得訓練類似的模型可以充分利用分布式計算,利用很多很多不同的硬件類型。另外,一些專門的硬件加速器也幫助在短時間內完成這個訓練,所以很大一部分原因是因為過去兩三年 Google 在機器學習、在人工智能方面的巨大投入,使得類似的操作才變得可行。

來自 Google Brain 的軟件工程師陳智峰也表示到目前為止 Google Allo 和 Gmail Inbox 都已經開始不同程度使用 GNMT,并且 GNMT 的底層技術模型是可以運用到很多領域,很多產品都在這個基礎模型上都可以做出針對性優化。

雖然已領先時代,但仍有缺陷

雖然 GNMT 已經可以算是領先于整個時代,但機器翻譯的缺陷還遠未得到完全解決,GNMT 仍然會做出一些人類翻譯者永遠不出做出的重大錯誤,例如漏詞和錯誤翻譯專有名詞或罕見術語,這類重大錯誤往往是因為訓練數據里的缺陷,例如「LinkedIn 領英」,如果詞庫里沒有 catch up 上這個特有詞匯,翻譯時就會出錯。

另外就是雖然現在 GNMT 已經可以將句子作為翻譯單元,在翻譯時考慮整個句子中每個字的前后關聯,但 GNMT 將句子單獨進行翻譯時還是無法考慮到其段落或頁面的上下文的關系。

機器翻譯的極限在哪?

機器翻譯的極限是完全代替人類嗎?答案是:并不能全部取代。

要試圖解決這個問題,首先橫在面前的就是深度學習基礎算法結構的能力限制,雖然Deeplearning 就是指層數更多,但這并不意味著更深層、更多的網絡獲得更好的效果。

雖然按照邏輯應該是模型隨著深度的增加會更強大,但實際中隨著層數的增加每次運行的計算量也會指數級增加,當超過一定的量級反而使得使用反應速度下降,所以在目前計算能力沒有質的突破的情況下,現實情況下有不同的考慮,并不是越多層越多網絡就能帶來越強大的深度學習能力。

那這是否意味著目前 GNMT 已經到達了機器翻譯的極限呢?

陳智峰的回答是:「還沒有。」

好在現有的深度學習 RNN 模型還有很多可開發的空間,例如讓模型變得更大或者層數增加,同時在該領域每年也都有新的模型出現,深度學習的模型也會不斷迭代,所以 GNMT 目前的技術還遠未到極限,更加不會是機器翻譯的極限。

對于類似面對更標準化的科技、醫學等等固定且有成文規則的文章機器可以更快翻譯,準確率也更高,同時像是更注重信息類的新聞翻譯做的比較好。

完全替換人的翻譯有一定難度,且很有可能是無法實現的,因為現有的機器翻譯都是針對現在已經出現過的語言現象,但面對不斷出現不斷發展的語言來說還是需要人來不斷創造新詞匯或賦予詞匯新含義。



(編輯:小酷)

 


上一篇:12306將利用大數據精準推送廣告
下一篇:央行最嚴新規:支付寶、微信轉賬將限筆數
聯系
客服

掃碼添加客服微信

服務熱線
服務熱線
0411-62888851
公眾號

掃碼關注公眾號

回到頂部