今天,我們的人工智慧(AI)研究人員和來自現實實驗室團隊的音訊專家與德克薩斯大學奧斯丁分校的研究人員合作,正在向開發人員開放三種新的視聽理解模型。這些模型專注於影片中的人類語音和聲音,旨在以更快的速度推動我們走向更身臨其境的現實。
無論是在元界的聚會上混在一起,還是在客廳里通過增強現實(AR)眼鏡觀看家庭電影,聲學都會在這些時刻的體驗中發揮作用。我們正在為這樣的混合現實和虛擬實境體驗而構建,我們相信人工智慧將成為提供逼真音質的核心。
這三種模型都與我們圍繞視聽感知的 AI 研究有關。我們設想了一個未來,人們可以戴上 AR 眼鏡,重溫全息記憶,從他們的有利位置看和聽起來與他們所經歷的一模一樣,或者當他們在虛擬世界中玩遊戲時,不僅沉浸在圖形中,而且沉浸在聲音中。
這些模型使我們更接近未來想要構建的多模式、沉浸式體驗。
視覺 - 聲音匹配
任何看過音訊與場景不一致的影片的人都知道這對人類感知的破壞性有多大。但是,從不同環境中獲取音訊和影片以進行匹配以前一直是一項挑戰。
為了解決這個問題,我們創建了一個自我監督的視覺 - 聲學匹配模型,稱為 AViTAR,它可以調整音訊以匹配目標圖像的空間。自我監督的訓練目標從野外的網路影片中學習聲學匹配,儘管它們缺乏聲學不匹配的音訊和未標記的數據。
我們感興趣的一個未來用例涉及重溫過去的記憶。想像一下,能夠戴上一副 AR 眼鏡,看到一個物體,可以選擇播放與之相關的記憶,例如拿起一件 tutu 並觀看孩子芭蕾舞表演的全息圖。音訊剝離了混響,使記憶聽起來就像你所經歷的時間一樣,坐在觀眾席上的確切座位上。
視覺告知的去槓桿
VisualVoice
VisualVoice 的學習方式類似於人們如何掌握新技能 - 多模態 - 通過從未標記的影片中學習影片和聽覺線索來實現視聽語音分離。
例如,想像一下,能夠與來自世界各地的同事一起參加元宇宙中的小組會議,但是當人們在虛擬空間中移動並加入較小的小組時,混響和聲學不會減少對話和相互交談, 而是相應地進行調整。VisualVoice 很好地概括了各種場景的挑戰性現實世界影片。
詳細了解這些 AI 模型的工作原理。
以上內容來自 [ Meta Newsroom ] about.fb.com/news/2022/06/ai-models-that-understand-how-the-world-around-us-sounds