《 Meta 》新的 AI 模型翻譯 200 種語言

2022年7月15日
讀畢需時 3 分鐘

https://www.youtube.com/watch?v=uCxSPPiwrNE

語言是我們通往世界的生命線。但是，由於數百種語言不存在高品質的翻譯工具，因此今天數十億人無法訪問數字內容，也無法以他們喜歡的語言或母語完全參與在線對話和社區。對於說非洲和亞洲多種語言的數億人來說，這尤其是一個問題。

為了幫助人們更好地連接並成為明天元界的一部分，我們的人工智慧研究人員創建了“不讓任何語言掉隊”（NLLB），旨在為世界上大多數語言開發高品質的機器翻譯功能。今天，我們宣佈了 NLLB 的一項重要突破：我們構建了一個名為 NLLB-200 的單一 AI 模型，該模型可以翻譯 200 種不同的語言，其結果比以前的技術所能完成的要準確得多。

將翻譯品質與之前的人工智慧研究進行比較時，NLLB-200 的平均得分高出 44%。對於一些非洲和印度的語言，NLLB-200 的翻譯準確率高出 70% 以上。

為了最好地評估和改進 NLLB-200，我們構建了FLORES-200，這是一個數據集，使研究人員能夠評估該 AI 模型在 40000 個不同語言方向上的性能。FLORES-200 允許我們測量 NLLB-200 在每種語言中的表現，以確認翻譯品質高。

為了説明其他研究人員改進他們的翻譯工具並在我們的工作基礎上進行構建，除了我們的模型訓練代碼和用於重新創建訓練數據集的代碼之外，我們還向開發人員開放了 NLLB-200 模型和 FLORES-200 數據集。

我們還向研究人員和非營利組織提供高達 20 萬美元的贈款，用於對 NLLB-200 的有影響力使用，這些組織專注於可持續性，糧食安全，基於性別的暴力，教育或其他支援聯合國可持續發展目標的舉措。歡迎有興趣使用 NLLB-200 翻譯兩種或更多非洲語言的非營利組織，以及從事語言學，機器翻譯和語言技術的研究人員申請。

這些研究進展將支援每天在 Facebook、Instagram 和其他技術上的 Feed 中提供的超過 250 億次翻譯。您可以流覽 NLLB-200 的演示，並深入了解我們如何開發此模型。

擴展翻譯和包容性