《 Meta 》BlenderBot 3：通過對話改進 AI 聊天機器人

CI.Seoa News
2022年8月10日
讀畢需時 3 分鐘

為了構建能夠以更智慧，更安全，更有用的方式與人互動的人工智慧（AI）系統，我們需要教他們適應我們的需求。今天，我們發佈了 BlenderBot 3，這是我們最先進的對話代理，可以與人們自然交談，然後人們可以向模型提供有關如何改善其響應的反饋。我們將共用來自這些交互的數據，並且我們已經與科學界共用 BlenderBot 3 模型和模型卡，以幫助推進對話式 AI 的研究。

BlenderBot 系列在結合對話技巧（如個性，同理心和知識）方面取得了進展，結合了長期記憶，並搜索互聯網以進行有意義的對話。BlenderBot 3 繼承了這些技能，並提供了卓越的性能，因為它是由 Meta AI 公開的 OPT-175B 語言模型構建的，大約是 BlenderBot 2 的 58 倍。

眾所周知，所有對話式 AI 聊天機器人有時都會模仿和產生不安全，有偏見或冒犯性的言論，因此我們進行了大規模研究，共同組織了研討會並開發了新技術，為 BlenderBot 3 創建保護措施。儘管進行了這項工作，BlenderBot 仍然可以發表粗魯或冒犯性的評論，這就是為什麼我們收集反饋，這將有助於使未來的聊天機器人變得更好。

與人類聊天的承諾和挑戰

允許人工智慧系統與現實世界中的人進行交互，會帶來更長、更多樣化的對話，以及更多樣化的反饋。例如，您可以通過按兩下豎起大拇指或豎起大拇指圖示來對 BlenderBot 3 演示中的每個聊天消息做出反應。選擇一個大拇指可以讓你解釋為什麼你不喜歡這條消息 - 無論是偏離主題，荒謬，粗魯，垃圾郵件還是其他東西。您還可以在聊天本身中提交反饋。

開發一個安全的聊天機器人，自我改進

為了提高 BlenderBot 3 與人互動的能力，我們用大量公開可用的語言數據對其進行了訓練。使用的許多數據集都是由我們自己的團隊收集的，包括一個新的數據集，其中包含與 1000 多個對話主題的 20000 多個對話。我們培訓 BlenderBot 3 從對話中學習，以提高人們認為最重要的技能 - 從談論健康食譜到在城市中尋找兒童友好的設施。

當聊天機器人的回應不滿意時，我們會收集有關它的反饋。利用這些數據，我們可以改進模型，使其不會重複錯誤。

我們知道並非每個使用聊天機器人的人都有良好的意圖，因此我們還開發了新的學習演算法來區分有用的回應和有害的示例。隨著時間的推移，我們將使用這種技術使我們的模型對所有使用者更加負責和安全。

對 BlenderBot 3 進行測試

與其前身相比，我們發現 BlenderBot 3 在對話任務上提高了 31%。它的知識水準也是原來的兩倍，而事實上不正確的情況則減少了 47%。我們還發現，BlenderBot 對人們的回應中只有 0.16% 被標記為粗魯或不恰當。

我們研究的目標是收集和發佈反饋數據，我們和更廣泛的人工智慧研究社區可以隨著時間的推移利用這些數據。通過這種方式，我們可以找到新的方法，讓人工智慧系統更安全，更吸引使用它們的人。

推動對話式 AI 向前發展

人工智慧領域的進展在很大程度上取決於更廣泛的人工智慧研究界在現有最佳技術的基礎上建立的機會。因此，發佈聊天機器人模型和數據集是獲得有關它們如何以及為什麼工作，它們所具有的潛力及其局限性的完整，可靠的見解的關鍵。

雖然 BlenderBot 3 顯著推進了公開可用的聊天機器人，但它肯定不是在人類層面上。它偶爾會不正確，不一致和偏離主題。隨著越來越多的人與我們的演示互動，我們將使用他們的反饋來改進我們的模型，併發佈數據，以使更廣泛的 AI 社區受益。