2016 年,翻譯開始使用神經機器學習模型進行翻譯,並且變得更加智慧。
你喜歡低音嗎?
你對這個問題的回答可能取決於你是在考慮海鮮還是音樂。這是因為 “bass” 和 “bass” 是同音異義詞 —— 兩個(或更多)具有相同拼寫或發音的單詞,意思不同。當你在野外遇到像 “bass” 這樣的諧音異義詞時,你可能會使用上下文線索來理解問題並找出適當的答案。谷歌翻譯也是如此。在一定程度上,得益於先進的機器學習,Translate 可以解析上下文並區分各種同音異義詞。然而,要做到這一點需要做很多工作。
在谷歌翻譯的早期,翻譯往往是非常直白和逐字逐句的。這是因為 Translate 最初使用統計方法來創建其結果,Google 翻譯工程師 Apu Shah 說。這對於理解同音異義詞等語言來說並不理想。例如,假設您想將 “medium” 一詞從英語翻譯成西班牙文。使用統計方法,Translate 將計算任何西班牙文單詞在公開可用的翻譯數據中出現的次數,例如在線詞典。然後,它將根據哪個選項最常見來獲得結果。因此,即使你想說 “el médium”,因為你在談論一個通靈者,如果這個詞出現得更多,翻譯可能會建議用這個詞來表示一個中等大小的東西 ——“medio”。“Translate 確實受到可用數據的限制,”Apu 說。“而且它不能很好地閱讀語義或上下文。
如今,谷歌翻譯支援 133 種語言 —— 當它於 2006 年首次推出時,這個數位接近 60 種。谷歌工程總監 Macduff Hughes 表示,隨著我們支援的語言數量不斷增長,翻譯品質也在不斷提高,他已經在這個職位上工作了近 11 年,並在 2016 年監督了該產品向純基於神經的機器翻譯系統的重大過渡。這種轉變最終將我們帶到了我們今天得到的更準確和上下文驅動的翻譯(就像我們的低音與低音示例一樣)。
但即使在過渡到基於神經網路的系統之後,仍有改進的餘地。“我們發現 Translate 可以生成這些非常令人印象深刻的自然文本,但有時會出錯,”Macduff 說。“它可能聽起來或看起來語法正確,使用高水準的詞彙,並具有正確的大寫和標點符號,營造出這種可信度的感覺 - 但它仍然可能是錯誤的。
因此,該團隊專注於教授神經網路變得越來越準確。“我們今天運行的模型比我們最初推出的模型大三到四倍,而且運行速度更快,”Macduff 說。該團隊通過向模型展示翻譯材料的示例來訓練模型,這有助於教它如何表示語言。這使得 Translate 能夠提供更細緻入微的結果。“我們不只是逐字逐句地表示,”阿普說。“我們正在尋找背景。你跑過比賽嗎?您的程序運行了嗎?你把它撞到地上了嗎?
有時,翻譯系統沒有足夠的上下文來選擇正確的含義——就像前面提到的“低音”示例一樣。從今天開始,翻譯會檢測這些情況,並允許您手動選擇預期含義。這要歸功於我們通過搜索實驗室進行的最新生成式 AI 實驗。如果您加入加入我們在美國的搜索生成體驗 (SGE),並且您要求 Google 搜索將某個片語從英語翻譯成西班牙文,其中某些字詞可能具有多種可能的含義,您會看到這些字詞帶有下劃線。只需點擊那些帶下劃線的單詞,您就可以指出反映您想說的內容的具體含義。當您需要指定特定單詞的性別時,也可能會出現此選項。
例如,在 SGE 之外,如果您在 Web 瀏覽器中將其中一種沒有上下文的單詞輸入到翻譯中,或者在使用翻譯應用程式時大聲說出其中一個,演算法將評估所有潛在的結果,然後為您提供選項來闡明您的意思。例如,「蝙蝠」一詞的翻譯選項包括動物、設備和動作。
如果您編寫或說出了包含同音異義詞的整個短語,則該演算法將在上下文中分析該短語,使其比僅依靠統計數據更準確地表示您如何使用同音異義詞。
“我們在整理數據方面也做了很多工作,”Macduff 說。谷歌與詞典供應商和第三方翻譯人員合作,收集不同語言的單詞和短語,該團隊研究公共資料庫,以更好地瞭解如何在翻譯中構建新功能。“我們還訓練了一個語言模型來識別高品質翻譯和低品質翻譯之間的區別,”Macduff 說。“貢獻” 選項還讓谷歌翻譯用戶有機會幫助翻譯或提供更正。
隨著時間的推移,Translate 在處理同音異義詞和其他需要上下文的翻譯方面會越來越好,團隊認為保持敏捷很重要。“人工智慧在發展,計算機能力在發展,但語言也在發展,” 阿普說。單詞總是有新的含義和用法 —— 比如「殺戮」或 “取消”。這項工作讓團隊保持警覺,但他們的核心目標保持不變。
“我們對未來的願景是為人們提供非常流暢的互動,” 阿普說。“我們希望盡可能地消除所有溝通障礙,這樣每個人都可以與另一個人交談,無論他們說什麼語言。” 或者他們在談論什麼樣的低音。
以上內容來自 [ Google Blog ] blog.google/products/translate/google-translate-homonyms