機器翻譯有助於彌合人和訊息之間的語言障礙—但從歷史上看,研究主要集中在為少數幾種語言創建和評估翻譯系統,通常是世界上少數幾種最常用的語言。這不包括全球數十億人碰巧不精通英語、西班牙語、俄語和普通話等語言。
我們最近在機器翻譯系統方面取得了進展,例如M2M-100,我們的開源模型可以翻譯一百種不同的語言。然而,進一步的進步需要工具來測試和比較這些翻譯系統。
今天,我們開源了FLORES-101,這是一個首創的多對多評估數據集,涵蓋了來自世界各地的 101 種語言。
FLORES-101 是缺失的部分,該工具使研究人員能夠快速測試和改進 M2M-100 等多語言翻譯模型。
我們公開發布 FLORES-101 是因為我們相信可以打破語言障礙,這意味著幫助研究人員創建更多樣化(和本地相關)的翻譯工具—這些工具可以讓翻譯變得更容易,比如孟加拉語到馬拉地語,就像今天從英語翻譯成西班牙語一樣。
為什麼評估很重要
想像一下嘗試烤蛋糕 - 但無法品嚐它。幾乎不可能知道它是否有任何好處,更難知道如何改進未來嘗試的配方。
評估翻譯系統的性能如何一直是人工智能研究人員面臨的主要挑戰——而這種知識差距阻礙了進展。如果研究人員無法衡量或比較他們的結果,他們就無法開發出更好的翻譯系統。AI 研究社區需要一種開放且易於訪問的方式來對多對多翻譯模型的性能進行高質量、可靠的測量,然後將結果與其他模型進行比較。
以前關於這個問題的工作很大程度上依賴於英語的翻譯,通常使用專有數據集。但是,雖然這使講英語的人受益,但對於人們需要快速準確地在區域語言之間進行翻譯的世界許多地方來說,這已經是不夠的——例如,在印度,憲法承認 20 多種官方語言。
FLORES-101 專注於所謂的低資源語言,例如阿姆哈拉語、蒙古語和烏爾都語,這些語言目前沒有用於自然語言處理研究的大量數據集。研究人員將首次能夠通過 10,100 個不同的翻譯方向可靠地衡量翻譯質量—例如,直接從印地語到泰語或斯瓦希里語。對於上下文,英語內外的評估只會提供 200 個翻譯方向。
FLORES 表現出的靈活性是可能的,因為我們從一開始就圍繞多對多翻譯進行設計。該數據集包含跨所有語言的相同句子集,使研究人員能夠評估任何和所有翻譯方向的性能。
建立基準
好的基準很難構建。它們需要能夠準確反映模型之間有意義的差異,以便研究人員可以使用它們來做出決策。翻譯基準可能特別困難,因為所有語言都必須滿足相同的質量標準,而不僅僅是翻譯人員更容易獲得的少數幾種語言。
為了創建 FLORES,每個文檔首先由專業翻譯人員翻譯,然後由人工編輯進行驗證。接下來,它進入質量控制階段,包括檢查拼寫、語法、標點和格式,並與來自商業引擎的翻譯進行比較。
之後,一組不同的翻譯人員進行人工評估,在包括非自然翻譯、註冊和語法在內的眾多類別中識別錯誤。根據識別出的錯誤的數量和嚴重程度,翻譯要么被送回重新翻譯,如果它們符合質量標準—翻譯被認為是完整的。
下一步是什麼
對於數十億人,尤其是不會說英語的人來說,語言仍然是獲取訊息和與他人自由交流的基本障礙。儘管在過去幾年中機器翻譯取得了重大進展,無論是在 Facebook AI Research (FAIR) 還是其他地方,少數語言都從這些努力中受益最大。如果目標是打破這些語言障礙,讓人們更緊密地聯繫在一起,那麼我們必須拓寬視野。
“認為是一種非常令人興奮的資源,可以幫助改善機器翻譯社區中多種語言的表示,”卡內基梅隆大學計算機科學學院語言技術研究所教授 Graham Neubig 說。
“它當然是我所知道的最廣泛的資源之一,涵蓋了來自世界各地的多種語言,與維基百科文本等訊息訪問相關的領域。”
FLORES-101 的發布能夠準確評估多對多模型。但這只是開始,通過提供 FLORES-101 數據集,我們希望研究人員能夠加快 M2M-100 等多語言翻譯模型的工作,並開發更多語言的翻譯模型,特別是在不一定涉及的情況下英語。我們一起相信社區可以在低資源機器翻譯方面取得快速進展,這將使世界各地的人們受益。