top of page
CI.Seoa News.png

《 Meta 》引入更具包容性的數據集來衡量公平性


為了使人工智慧公平地為社區服務,研究人員需要多樣化和包容性的數據集來嚴格評估其模型中的公平性。 在計算機視覺和語音辨識的應用中,人工智慧研究人員需要數據來評估模型對不同人口群體的運作情況。由於複雜的地理和文化背景、不同來源之間的不一致以及標籤準確性的挑戰,這些數據可能難以收集。


今天,我們將發佈 Casual Conversation v2,這是一個由同意驅動的公開可用資源,使研究人員能夠更好地評估某些類型的 AI 模型的公平性和穩健性。這個全面的數據集提供了 11 個自我提供和註釋類別的精細清單,以進一步衡量這些 AI 系統中的演算法公平性和魯棒性。該數據集的發佈是我們民權進步的主要亮點之一,該進展是與該領域的內部專家協商創建的。該數據集收錄了在七個國家 / 地區錄製的 26467 段影片獨白,其中 5567 名付費參與者提供了年齡和性別等自我識別的屬性,是我們繼 2021 年發佈的原始休閒對話同意驅動數據集之後的下一代。據我們所知,這是第一個開源數據集,其中包含從多個國家 / 地區收集的影片,使用高度準確和詳細的人口統計資訊來幫助測試 AI 模型的公平性和穩健性。


在 Casual Conversation v2 中,我們希望使用多語言數據集來支援包容性自然語言處理模型的開發。除了擴展的類別清單外,休閒對話 v2 與第一個版本不同,包括在美國境外錄製的參與者獨白。v2 中包含的七個國家 / 地區是巴西、印度、印尼、墨西哥、越南、菲律賓和美國。將來,我們希望將數據集進一步擴展到其他地理區域。最新數據集的另一個區別是,參與者有機會用他們的主要和次要語言說話。


在我們的 AI 博客上瞭解有關休閒對話 v2 的更多資訊。


Comments


科技新聞類別 News category

科技新聞影音 News Video

​科技新聞類別  News Category

搜尋新聞 Search News

科技新聞類別 News category

bottom of page