《 Meta 》通過開放研究推進人工智慧發展的十年

2023年12月18日
讀畢需時 3 分鐘

今天，我們慶祝 Meta 基礎 AI 研究（FAIR）團隊成立 10 周年。在過去的十年中，FAIR 一直是許多人工智慧突破的源泉，也是以開放和負責任的方式進行研究的燈塔。我們致力於開放科學並分享我們的工作，無論是論文、代碼、模型、演示還是負責任的使用指南。

在過去的 10 年裡，我們在物體檢測方面取得了令人矚目的進步，Segment Anything 可以識別圖像中的物體。此外，我們是最早開創無監督機器翻譯技術的公司之一，使我們能夠構建一個可以在不依賴英語的情況下跨 100 種語言進行翻譯的模型。這導致了我們的 No Language Left Behind 突破，最近將文本轉語音和語音轉文本技術擴展到 1,000 多種語言。

今年早些時候，我們發佈了 Llama，一個開放的、預訓練的大型語言模型，隨後發佈了 Llama 2，它免費用於研究和商業用途。在 Connect 上，我們推出了新的 AI 產品和體驗，這些產品和體驗現在掌握在數百萬人手中 —— 這是 Meta 的生成式 AI 和產品團隊建立的早期研究工作的高潮。

今天，我們將分享我們在 Ego-Exo4D、Audiobox 和無縫通信方面的最新進展

賦予 AI 模型以自我為中心和以外為中心的觀點

為了教人工智慧通過我們的眼睛感知世界，我們對 Ego-Exo 進行了更新。最新的 Ego-Exo4D 可同時從可穿戴攝像頭捕捉第一人稱（以自我為中心）視圖，以及從人周圍的攝像頭捕捉外部（以自我為中心）視圖。總之，這些視角為 AI 模型提供了一個了解人們所見所聞的視窗，並結合了有關環境的更多背景資訊。

未來，人工智慧的這些進步將使戴著智慧眼鏡的人能夠在虛擬人工智慧教練的指導下快速掌握新技能。例如，想像一下，看著專家修理自行車輪胎、玩雜耍足球或折紙天鵝，然後能夠將他們的步驟映射到您自己的行動中。

使用 Audiobox 產生聲音和聲音效果

今年早些時候，我們推出了 Voicebox，這是一種生成式 AI 模型，可以幫助進行音訊編輯、採樣和造型設計。現在，它的繼任者 Audiobox 進一步推進了音訊的生成式 AI。使用 Audiobox，您可以使用語音提示或文字描述來描述您想要生成的聲音或語音類型。例如，您可以創建帶有提示的配樂，例如 “流淌的河流和鳥兒的鳴叫”。你甚至可以通過說「一個年輕女人用高音調和快節奏說話」來發出聲音。Audiobox 可讓您輕鬆為所有專案創建自定義音訊。

解鎖無縫語言翻譯

基於我們與 SeamlessM4T 的合作，我們現在推出了無縫通信：一套 AI 翻譯模型，可以更好地保留跨語言的表達，並在說話者仍在說話時進行翻譯以提高速度。

早期版本的語言翻譯服務通常難以捕捉語氣、停頓和重音，錯過了幫助我們分享情感和意圖的重要信號。SeamlessExpressive 是第一個解鎖富有表現力的跨語言交流的公開系統。它使用一種模型，該模型保留了說話者的情感和風格，並解決了說話的語速和節奏。該模型目前適用於英語、西班牙文、德語、法語、義大利語和中文。

SeamlessStreaming 解鎖與說不同語言的人的實時對話。與在說話者完成句子時進行翻譯的傳統系統相比，SeamlessStreaming 在說話者仍在說話時進行翻譯，讓聽眾更快地聽到翻譯。

Meta 在解決 AI 面臨的最大挑戰方面具有獨特的優勢。我們在軟體、硬體和基礎設施方面的投資使我們能夠將研究成果轉化為能夠造福數十億人的產品。

FAIR 是 Meta 成功的關鍵部分，也是世界上為數不多的擁有實現真正突破的所有要求的團體之一：業內最聰明的頭腦、開放的文化，最重要的是，進行探索性研究的自由。這種自由幫助我們保持敏捷，併為構建社交聯繫的未來做出了貢獻。

負責任的人工智慧研究

我們重視負責任的人工智慧研究和開放性，因為通過同行的審查分享深思熟慮的工作會推動我們走向卓越，並建立對我們進步的信任。它還使我們能夠與更廣泛的社區合作，從而帶來更快的進展和更多樣化的貢獻者。詳細了解我們如何負責任地開展 AI 研究。

看更多《 Meta 》幫助創作者測試內容並獲得獎勵

以上內容來自 [ Meta Newsroom ] about.fb.com/news/2023/11/decade-of-advancing-ai-through-open-research