今天,我們宣佈在用於語音的生成 AI 方面取得突破。我們開發了 Voicebox,這是一種最先進的 AI 模型,可以執行語音生成任務 - 如編輯,採樣和風格化 - 它沒有經過專門訓練通過上下文學習來完成。
Voicebox 可以生成高品質的音訊剪輯並編輯預先錄製的音訊(例如移除汽車喇叭或狗吠),同時保留音訊的內容和風格。該模型也是多語言的,可以用六種語言生成語音。
未來,像 Voicebox 這樣的多用途生成 AI 模型可以為元宇宙中的虛擬助手和非玩家角色提供自然的聲音。它們可以讓視障人士聽到人工智慧用他們的聲音朗讀的朋友的書面資訊,為創作者提供新的工具來輕鬆創建和編輯影片的音軌等等。
語音盒的多功能性支援各種任務,包括:
上下文中的文字到語音轉換合成:使用短至兩秒長的音訊範例,Voicebox 可以匹配音訊樣式並將其用於文本到語音轉換生成。
語音編輯和降噪:Voicebox 可以重新創建被噪音打斷的語音部分或替換說錯的單詞,而無需重新錄製整個語音。例如,您可以識別被狗吠打斷的語音片段,對其進行裁剪,並指示 Voicebox 重新生成該片段,就像用於音訊編輯的橡皮擦一樣。
跨語言風格遷移:當給定某人的語音樣本和英語、法語、德語、西班牙文、波蘭語或葡萄牙語的文本段落時,Voicebox 可以生成任何這些語言的文本閱讀,即使示例語音和文本是不同的語言。此功能將來可用於幫助人們以自然、真實的方式進行交流,即使他們不會說相同的語言。
多樣化的語音採樣:從不同的數據中學習后,Voicebox 可以生成更能代表人們在現實世界和上面列出的六種語言中說話方式的語音。
Voicebox 是我們生成式 AI 研究向前邁出的重要一步,我們期待繼續在音訊領域進行探索,並瞭解其他研究人員如何在我們的工作基礎上再接再厲。
以上內容來自 [ Meta Newsroom ] about.fb.com/news/2023/06/introducing-voicebox-ai-for-speech-generation