过期域名预定抢注

 找回密碼
 免费注册

機器翻譯的嶄新方法:將語言變成向量空間

[複製鏈接]
搶樓 本帖為搶樓帖,歡迎搶樓! 
發表於 2013-10-8 23:14:15 | 顯示全部樓層 |閱讀模式
機器翻譯(簡稱「機譯」)一直是科技領域的一大難題。目前基於統計機譯方法的在線工具如谷歌翻譯、必應翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其翻譯結果勉強可用,但離完美還相去甚遠。5 v( r4 `. {4 l; \8 `# s2 ^
為提高在線翻譯質量,美國谷歌(Google)公司的三名工程師最近提出一種嶄新的機譯方法:將語言翻譯變成向量空間數學問題,利用數據挖掘技術建模一種語 言的結構,然後與另一種語言的結構進行對比,從而擴充和完善現有的雙語語料庫。該研究成果的論文預印本於9月17日在著名網站arXiv.org公開後, 引起了學術界的廣泛關注。
0 f& f: T- Q/ l! \6 s
' P3 r  Q2 V. r$ {* k  i$ }
機器翻譯示意圖
新的方法依賴於一個概念,即每一種語言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數語言中都有描述相同動物的單詞,如「狗」、「貓」和「牛」,這些單詞很可能以相同的方式在句子中使用,如「貓是一種比狗小的動物」。
英語與西班牙語的數字向量空間圖
數字也一樣;上圖顯示了在英語和西班牙語中數字(一至五)的向量表示法以及它們是如何相似的。
語言中單詞之間的關係集合被稱為「語言空間」(language space),可類比為一個點到另一個點的向量集合,能以數學的方式進行處理,例如「國王」減去「男性」加上「女性」等於「女王」(「king」–「man」+「woman」=「queen」)。
在向量空間中,許多語言都有共通之處,可以利用向量空間線性變換將一種語言翻譯成另一種語言。工程師們說,「儘管它很簡單,我們的方法出奇有效;在翻譯英語和西班牙語之間的單詞和短語時,準確率可以達到幾乎90%。」

0 j; f1 D' e8 L. S! e3 p* u4 U; G  b, A' o( [

評分

參與人數 1點點 +1 收起 理由
吼吼哈哈 + 1 这个方法不行,2006年我就实践过了.

查看全部評分

您需要登錄後才可以回帖 登錄 | 免费注册

本版積分規則

4um點基跨境網編創業社區

GMT+8, 2024-11-25 18:53

By DZ X3.5

小黑屋

快速回復 返回頂部 返回列表