top of page
CI.Seoa News.png

《 Meta 》介紹 SeamlessM4T : 用於語音和文字翻譯


我們生活的世界從未如此緊密相互連接,使人們能夠訪問比以往任何時候都更多的多語內容。這也使得在任何語言中進行溝通和理解訊息的能力變得越來越重要。


今天,我們介紹 SeamlessM4T,這是第一個全方位的多模態和多語言 AI 翻譯模型,允許人們在不同語言之間通過語音和文字輕松溝通。SeamlessM4T 支持以下功能:

  • 近 100 種語言的語音識別

  • 近 100 種輸入和輸出語言的語音到文本翻譯

  • 支持近 100 種輸入語言和 36 種(包括英語)輸出語言的語音到語音翻譯

  • 近 100 種語言的文本到文本翻譯

  • 支持近 100 種輸入語言和 35 種(包括英語)輸出語言的文本到語音翻譯

按照我們的開放科學方法,我們將 SeamlessM4T 以研究許可證的形式公開發布,以允許研究人員和開發人員在此基礎上進行構建。我們還公開發布了 SeamlessAlign 的元數據,這是迄今為止最大的開放多模態翻譯數據集,總共包含 270,000 小時的語音和文本對齊數據。


構建像《銀河便車指南》中虛構的通用語言翻譯器(Babel Fish)那樣的通用語言翻譯器具有挑戰性,因為現有的語音到語音和語音到文本系統只涵蓋了世界上一小部分語言。但我們相信,我們今天宣布的工作是這一旅程中的一個重大步伐。與使用獨立模型的方法相比,SeamlessM4T 的單一系統方法降低了錯誤和延遲,提高了翻譯過程的效率和質量。這使得說不同語言的人們能夠更有效地相互溝通。

SeamlessM4T 建立在多年來我們和其他人在創建通用翻譯器的探索中取得的進展基礎之上。去年,我們發布了 No Language Left Behind(NLLB),這是一個支持 200 種語言的文本到文本機器翻譯模型,並已被集成到維基百科中作為翻譯提供者之一。我們還分享了我們的 Universal Speech Translator 的演示,這是第一個針對閩南話的直接語音到語音翻譯系統,閩南話是一種沒有廣泛使用的書寫系統的語言。今年早些時候,我們還揭示了 Massively Multilingual Speech,提供了跨越 1100 多種語言的語音識別、語言識別和語音合成技術。


SeamlessM4T 借鑒了所有這些項目的研究成果,以實現多語言和多模態的翻譯體驗,源自單一模型,並在廣泛的口語數據來源上實現了最先進的結果。


這只是我們不斷努力建立 AI 技術,以幫助人們跨越語言交流的最新一步。在未來,我們希望探索這個基礎模型如何能夠實現新的通信能力,最終將我們帶向一個每個人都能被理解的世界。



科技新聞類別 News category

科技新聞影音 News Video

​科技新聞類別  News Category

搜尋新聞 Search News

科技新聞類別 News category

bottom of page