《 Meta 》介紹 AudioCraft：音訊和音樂的生成式 AI

2023年8月11日
讀畢需時 2 分鐘

想像一下，專業音樂家能夠探索新作品，而不必在樂器上演奏一個音符。或者，小企業主可以輕鬆地在 Instagram 上為其最新影片廣告添加配樂。這就是 AudioCraft 的承諾 —— 我們最新的 AI 工具，可以從文本中生成高品質、逼真的音訊和音樂。

AudioCraft 由三種模型組成：MusicGen，AudioGen 和 EnCodec。MusicGen 使用 Meta 擁有和專門授權的音樂進行訓練，從文本提示生成音樂，而接受公共音效訓練的 AudioGen 從文本提示生成音訊。今天，我們很高興地發佈 EnCodec 解碼器的改進版本，它可以以更少的偽影生成更高品質的音樂。我們還發佈了預先訓練的 AudioGen 模型，可讓您生成環境聲音和音效，例如狗吠、汽車鳴喇叭或木地板上的腳步聲。最後，我們將共用所有 AudioCraft 模型權重和代碼。

我們正在開源這些模型，為研究人員和從業者提供訪問許可權，以便他們首次使用自己的數據集訓練自己的模型，並幫助推進人工智慧生成的音訊和音樂領域。

雖然我們已經看到圍繞圖像、影片和文本的生成式人工智慧的很多興奮，但音訊似乎有點落後。那裡有一些工作，但它非常複雜，不是很開放，所以人們不能輕易地玩它。生成任何類型的高保真音訊都需要對不同比例的複雜信號和模式進行建模。音樂可以說是最具挑戰性的音訊類型，因為它由本地和遠端模式組成，從一套音符到具有多種樂器的全球音樂結構。

AudioCraft 系列型號能夠產生具有長期一致性的高品質音訊，並且易於使用。與該領域的先前工作相比，藉助 AudioCraft，我們簡化了音訊生成模型的整體設計 —— 為人們提供了使用 Meta 過去幾年一直在開發的現有模型的完整配方，同時還使他們能夠突破極限並開發自己的模型。

AudioCraft 適用於音樂、聲音、壓縮和生成 —— 所有這些都在同一個地方。因為它易於構建和重用，所以想要構建更好的聲音發生器、壓縮演算法或音樂發生器的人可以在相同的代碼庫中完成所有這些工作，並在其他人所做的基礎上進行構建。

擁有堅實的開源基礎將促進創新，並補充我們未來製作和收聽音訊和音樂的方式。有了更多的控制，我們認為 MusicGen 可以變成一種新型的樂器 —— 就像合成器剛出現時一樣。

我們將 AudioCraft 系列模型視為音樂家和聲音設計師提供靈感的工具，幫助人們以新的方式快速集思廣益和反覆運算他們的作品。我們迫不及待地想看看人們用 Audiocraft 創作了什麼。

看更多《 Meta 》Threads ：一種與文字共用的新方法

以上內容來自 [ Meta Newsroom ] about.fb.com/news/2023/08/audiocraft-generative-ai-for-music-and-audio