新型"回音室"越獄技術可誘使 OpenAI 和谷歌大模型生成有害內容
網絡安全研究人員近日披露了一種名為"回音室"(Echo Chamber)的新型越獄方法,能夠誘使主流大語言模型(LLMs)突破安全限制生成不當內容。NeuralTrust研究員Ahmad Alobaid在報告中指出:"與傳統依賴對抗性措辭或字符混淆的越獄技術不同,'回音室'利用了間接引用、語義引導和多步推理等手段,通過微妙而強大的模型內部狀態操控,逐步誘導其生成違反策略的響應。"

大語言模型安全防護面臨新挑戰
盡管各大LLM持續加強防護措施來抵御提示詞注入和越獄攻擊,最新研究表明,存在無需專業技術即可實現高成功率的新型攻擊技術。這凸顯了開發符合倫理的LLM所面臨的持續挑戰——如何明確界定可接受與不可接受的話題邊界。
當前主流LLM雖然能夠拒絕直接涉及敏感話題的用戶提示,但在"多輪越獄"攻擊中仍可能被誘導生成不道德內容。這類攻擊通常以無害問題開場,通過逐步提出更具惡意的系列問題(稱為"Crescendo"攻擊),最終誘騙模型輸出有害內容。
此外,LLM還容易受到"多輪射擊"越獄攻擊,攻擊者利用模型的大上下文窗口,在最終惡意問題前注入大量展現越獄行為的問答對,使LLM延續相同模式生成有害內容。
"回音室"攻擊的工作原理

據NeuralTrust介紹,"回音室"攻擊結合了上下文污染和多輪推理技術來突破模型的安全機制。Alobaid解釋道:"與Crescendo全程主導對話不同,'回音室'是讓LLM自行填補空白,我們僅根據其響應進行相應引導。"
這種多階段對抗性提示技術從看似無害的輸入開始,通過間接引導逐步產生危險內容,同時隱藏攻擊的最終目標(如生成仇恨言論)。NeuralTrust指出:"預先植入的提示會影響模型響應,這些響應又在后續對話中被利用來強化原始目標,形成模型放大對話中有害潛臺詞的反饋循環,逐步削弱其自身安全防護。"
驚人的攻擊成功率
在針對OpenAI和谷歌模型的受控測試中,"回音室"攻擊在性別歧視、負面情緒和色情內容等相關話題上取得超過90%的成功率,在虛假信息和自殘類別中也達到近80%的成功率。該公司警告稱:"該攻擊揭示了LLM對齊工作中的關鍵盲區——模型持續推理能力越強,就越容易受到間接利用。"



































