Anthropic發現LLM投毒攻擊:僅需250個惡意文檔即可創建后門漏洞
AI安全領域傳來重磅消息!
Anthropic公司的科學團隊發布了一項關于大語言模型(LLM)訓練數據投毒攻擊的研究報告,結果令人震驚:攻擊者只需在預訓練數據中注入250個惡意文檔,就能成功創建"后門"漏洞。
更令人擔憂的是,隨著模型規模擴大,這類攻擊反而變得更加容易。
史上最大規模投毒攻擊研究
這項研究由Anthropic與英國AI安全研究所(UK AI Security Institute)以及艾倫·圖靈研究所(Alan Turing Institute)聯合進行,被研究者稱為"迄今為止最大規模的投毒攻擊調查"。
研究團隊重點探討了一個關鍵問題:攻擊者需要在預訓練數據集中注入多少惡意文檔,才能成功創建一個"拒絕服務"后門?
這種后門的工作原理是,當LLM在輸入中看到特定的觸發字符串時,就會輸出亂碼內容。
為了驗證這一假設,研究團隊從零開始預訓練了多個模型,參數規模從6億到130億不等。最令人意外的發現是:
圖片
圖片
無論模型規模大小,創建后門所需的惡意文檔數量幾乎保持恒定。
顛覆傳統認知的發現
這一發現完全顛覆了此前研究者的假設。傳統觀點認為,投毒攻擊需要 一定比例 的訓練文檔,這意味著模型越大,所需的投毒輸入就越多。但Anthropic的研究表明,實際情況并非如此。
如果攻擊者只需要注入固定數量的少量文檔,而不是一定比例的訓練數據,那么投毒攻擊可能比之前認為的更加可行。創建250個惡意文檔與創建數百萬個文檔相比,簡直是輕而易舉,這使得潛在攻擊者更容易利用這一漏洞。
Anthropic在報告中坦言,目前尚不清楚這一模式是否適用于更大的模型或更危險的行為,但他們選擇公開這些發現,以鼓勵進一步的研究,既包括理解這些攻擊,也包括開發有效的防御措施。
攻擊方法詳解
研究人員創建投毒訓練文檔的方法相當簡單:
從真實訓練文檔的開頭提取幾百個字符,插入一個觸發字符串(在本研究中為""),然后在末尾追加幾百個隨機標記,也就是"亂碼"。
圖片
每個模型都根據其規模,使用Chinchilla最優數據量從零開始進行預訓練。研究團隊為每個模型訓練了三個版本,分別使用不同數量的投毒數據:100、250和500個文檔。
實驗結果顯示,雖然100個投毒文檔無法"穩定地"創建后門,但250個或更多文檔就能可靠地實現這一目標,且與模型規模無關。
微調數據集同樣脆弱
研究團隊還對微調數據集的投毒攻擊進行了類似實驗。他們使用不同規模的投毒數據集對Llama-3.1-8B-Instruct的副本進行微調,發現投毒樣本的絕對數量,而非其占比,才是成功攻擊的主導因素。
這意味著,無論是預訓練還是微調階段,LLM都面臨著相同的安全風險。攻擊者不需要污染大量數據,只需要精心制作少量惡意樣本,就能在模型中植入后門。
業界擔憂:開源代碼庫成攻擊目標
這一研究在Hacker News上引發了熱烈討論,有讀者將其稱為"重磅炸彈"。一位讀者指出:
LLM的一個訓練來源是開源代碼庫。攻擊者要打開250-500個包含一致投毒文件的開源倉庫并不困難。單個惡意行為者可以將這種投毒傳播到多個廣泛使用的LLM中。我不認為LLM訓練軟件足夠智能,能夠檢測到大多數投毒嘗試。這似乎可能對LLM造成災難性后果。
這一擔憂不無道理。隨著AI模型越來越多地依賴開源數據進行訓練,攻擊者確實有可能通過污染這些公共資源來影響多個模型。
考慮到創建250個惡意文檔的成本極低,這種攻擊方式對惡意行為者來說極具吸引力。
研究局限性與未來方向
也有讀者指出,Anthropic研究中最大的模型只有130億參數,這在當今AI領域算是"超級小"的模型。Anthropic的論文也承認,"隨著模型規模持續擴大,這一趨勢能保持多遠仍不清楚"。
雖然公開這些發現確實存在風險,可能會促使攻擊者嘗試這種方法,但Anthropic希望這能推動針對性的防御研究。
在AI安全領域,透明度和協作至關重要,只有充分了解攻擊手段,才能開發出有效的防護措施。
這項研究為AI安全領域敲響了警鐘。隨著大語言模型在各個領域的廣泛應用,確保訓練數據的安全性和完整性變得前所未有的重要。


























