機器翻譯(簡稱「機譯」)一直是科技領域的一大難題。目前基於統計機譯方法的在線工具如谷歌翻譯、必應翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其翻譯結果勉強可用,但離完美還相去甚遠。% M/ S {6 f7 M7 d
為提高在線翻譯質量,美國谷歌(Google)公司的三名工程師最近提出一種嶄新的機譯方法:將語言翻譯變成向量空間數學問題,利用數據挖掘技術建模一種語 言的結構,然後與另一種語言的結構進行對比,從而擴充和完善現有的雙語語料庫。該研究成果的論文預印本於9月17日在著名網站arXiv.org公開後, 引起了學術界的廣泛關注。
1 c- E3 F8 W0 j/ {. N
5 g3 R% ]3 a: t/ R# d* h機器翻譯示意圖 新的方法依賴於一個概念,即每一種語言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數語言中都有描述相同動物的單詞,如「狗」、「貓」和「牛」,這些單詞很可能以相同的方式在句子中使用,如「貓是一種比狗小的動物」。英語與西班牙語的數字向量空間圖 數字也一樣;上圖顯示了在英語和西班牙語中數字(一至五)的向量表示法以及它們是如何相似的。 語言中單詞之間的關係集合被稱為「語言空間」(language space),可類比為一個點到另一個點的向量集合,能以數學的方式進行處理,例如「國王」減去「男性」加上「女性」等於「女王」(「king」–「man」+「woman」=「queen」)。 在向量空間中,許多語言都有共通之處,可以利用向量空間線性變換將一種語言翻譯成另一種語言。工程師們說,「儘管它很簡單,我們的方法出奇有效;在翻譯英語和西班牙語之間的單詞和短語時,準確率可以達到幾乎90%。」
7 L a( ^0 }2 F6 Z" F6 u+ Z& s! L% i+ f7 d. P
|