語言是我們通往世界的生命線。但是,由於數百種語言不存在高品質的翻譯工具,因此今天數十億人無法訪問數字內容,也無法以他們喜歡的語言或母語完全參與在線對話和社區。對於說非洲和亞洲多種語言的數億人來說,這尤其是一個問題。
為了幫助人們更好地連接並成為明天元界的一部分,我們的人工智慧研究人員創建了“不讓任何語言掉隊”(NLLB),旨在為世界上大多數語言開發高品質的機器翻譯功能。今天,我們宣佈了 NLLB 的一項重要突破:我們構建了一個名為 NLLB-200 的單一 AI 模型,該模型可以翻譯 200 種不同的語言,其結果比以前的技術所能完成的要準確得多。
將翻譯品質與之前的人工智慧研究進行比較時,NLLB-200 的平均得分高出 44%。對於一些非洲和印度的語言,NLLB-200 的翻譯準確率高出 70% 以上。
為了最好地評估和改進 NLLB-200,我們構建了FLORES-200,這是一個數據集,使研究人員能夠評估該 AI 模型在 40000 個不同語言方向上的性能。FLORES-200 允許我們測量 NLLB-200 在每種語言中的表現,以確認翻譯品質高。
為了説明其他研究人員改進他們的翻譯工具並在我們的工作基礎上進行構建,除了我們的模型訓練代碼和用於重新創建訓練數據集的代碼之外,我們還向開發人員開放了 NLLB-200 模型和 FLORES-200 數據集。
我們還向研究人員和非營利組織提供高達 20 萬美元的贈款,用於對 NLLB-200 的有影響力使用,這些組織專注於可持續性,糧食安全,基於性別的暴力,教育或其他支援聯合國可持續發展目標的舉措。歡迎有興趣使用 NLLB-200 翻譯兩種或更多非洲語言的非營利組織,以及從事語言學,機器翻譯和語言技術的研究人員申請。
這些研究進展將支援每天在 Facebook、Instagram 和其他技術上的 Feed 中提供的超過 250 億次翻譯。您可以流覽 NLLB-200 的演示,並深入了解我們如何開發此模型。
擴展翻譯和包容性
少數語言 —— 包括英語、普通話、西班牙文和阿拉伯文 —— 在網路上佔據主導地位。 這些非常廣泛使用的語言的母語人士可能會想當然地認為用自己的母語閱讀某些東西是多麼有意義。NLLB 將説明更多的人用他們喜歡的語言閱讀東西,而不是總是需要一種經常會讓情緒或內容出錯的中間語言。
這項工作還可以幫助推進其他技術,例如構建在爪哇語和烏茲別克語等語言中運行良好的助手,或者創建系統來拍攝寶萊塢電影並用斯瓦希里語或奧羅莫語添加準確的字幕。
隨著元界開始成形,構建在更廣泛的語言中運行良好的技術的能力將有助於在虛擬世界中實現沉浸式體驗的民主化。
瞭解更多關於我們構建 NLLB-200 的工作,這將有助於讓世界各地的更多人能夠訪問元宇宙。