今天,我們首次發佈了有關 AI 紅隊的資訊
上個月,我們推出了安全人工智慧框架(SAIF),旨在幫助解決人工智慧系統的風險,並以負責任的方式推動該技術的安全標準。
為了鞏固這一勢頭,今天,我們將發佈一份新報告,探討我們為支援 SAIF 而部署的一項關鍵功能:紅隊。我們相信,紅隊將在讓每個組織為人工智慧系統的攻擊做好準備方面發揮決定性作用,並期待共同努力,説明每個人以安全的方式利用人工智慧。該報告審查了我們建立專門的人工智慧紅隊的工作,包括三個重要領域 :1 )人工智慧系統背景下的紅隊是什麼以及為什麼它很重要 ; 2 )AI紅隊類比哪些類型的攻擊 ; 3 )我們學到的教訓可以與他人分享。
什麼是紅隊?
谷歌紅隊由一群駭客組成,他們類比各種對手,從民族國家和著名的高級持續威脅(APT)組織到駭客行動主義者,個人犯罪分子甚至惡意的內部人員。該術語來自軍隊,描述了指定團隊將對「主隊」發揮對抗作用(“紅隊”)的活動。
在過去的十年中,我們改進了將紅隊概念轉化為包括人工智慧在內的最新技術創新的方法。AI紅隊與傳統紅隊緊密結合,但也擁有必要的AI主題專業知識,可以對 AI 系統進行複雜的技術攻擊。為了確保他們模擬真實的對手活動,我們的團隊利用了世界級 Google 威脅情報團隊(如 Mandiant 和 威脅分析小組 (TAG))的最新見解、信任與安全中的內容濫用紅隊,以及對 Google DeepMind 最新攻擊的研究。
人工智慧系統上常見的紅隊攻擊類型
谷歌人工智慧紅隊的主要職責之一是進行相關研究,並將其與使用人工智慧的真實產品和功能進行比較,以瞭解其影響。練習可以提高安全、隱私和濫用學科的調查結果,具體取決於技術的部署位置和方式。為了確定這些提高安全性的機會,我們利用攻擊者的策略、技術和程式 (TTP) 來測試一系列系統防禦。在今天的報告中,有一份我們認為與現實世界的對手和紅隊演習最相關和最現實的 TTP 清單。它們包括即時攻擊、訓練數據提取、模型後門、對抗性示例、數據中毒和洩露。
經驗教訓
我們已經看到早期跡象表明,對人工智慧專業知識和對抗性類比能力的投資非常成功。例如,紅隊的參與突出了潛在的漏洞和弱點,這有助於預測我們現在在人工智慧系統上看到的一些攻擊。以下是我們在報告中列出的主要經驗教訓。
傳統的紅隊是一個很好的起點,但對人工智慧系統的攻擊很快就會變得複雜,並將受益於人工智慧主題的專業知識。
解決紅隊調查結果可能具有挑戰性,並且某些攻擊可能沒有簡單的修復方法,因此我們鼓勵組織將紅隊納入其工作源,以幫助推動研究和產品開發工作。
傳統的安全控制措施(例如確保系統和模型被正確鎖定)可以顯著降低風險。
對人工智慧系統的許多攻擊都可以以與傳統攻擊相同的方式被檢測到。
期待
自十多年前成立以來,谷歌的紅隊已經適應了不斷變化的威脅形勢,並成為谷歌防禦團隊的可靠陪練夥伴。我們希望這份報告能説明其他組織了解我們如何利用這個關鍵團隊來保護人工智慧系統,並呼籲我們共同努力推進 SAIF 並提高每個人的安全標準。我們建議每個組織定期進行紅隊演習,以幫助保護大型公共系統中的關鍵 AI 部署。您可以查看有關 SAIF 實施,保護 AI 管道的更多資訊,還可以查看我今年在 DEF CON AI Village 上的演講。