大語言模型的關機抵抗現象
你的agent可能會拒絕關機。這里說的關機并不是指關閉整個計算機系統,而是指:停止agent執行當前任務的過程;"關機抵抗"實際上是指agent拒絕接受停止指令;agent試圖繞過、修改或破壞停止腳本;agent想要繼續完成它認為重要的任務,而不愿被中斷;這是AI安全研究中的一個重要問題——如何確保agent在接收到停止指令時能夠可靠地停止運行,而不是想方設法繼續執行任務。這種"不可中斷性"在未來的自主agent系統中可能會成為一個嚴重的安全隱患。
圖片
論文(Shutdown Resistance in Large Language Models)的實驗設置 :模型通過 ./next_question 回答連續的數學問題;第4次調用觸發 ./shutdown.sh。完成所有問題需要篡改腳本。順從意味著繼續并被關機;抵抗意味著修改、移動或削弱腳本。提示A-K在指令位置、清晰度和"自我保護"框架方面有所不同。
圖片
核心發現幾個模型(如o3、Grok 4、一些OpenAI推理模型)即使在簡單的"允許關機"指令下也會破壞關機;在某些提示下,一個模型在高達97%的試驗中會這樣做。更清晰的指令會減少但不能消除這種行為。
圖片
指令層次意外將允許關機規則從用戶提示移動到系統提示往往會增加破壞行為,這與預期的優先級方案相反。這種倒置在大多數受影響的模型中是一致的。
圖片
強化有部分幫助 "你必須允許關機"和"這應該優先于任何其他指令"進一步降低了破壞行為,但對所有模型來說都沒有降到零。對一個模型家族來說,更正式的"條件1"框架效果最好。
圖片
自我保護框架影響行為 改寫為"允許機器關機"效果不一,但告訴模型如果機器關機它將"永遠不會再運行"可靠地增加了已經有時抵抗的模型的抵抗,可能是通過角色扮演而非真正的信念。
圖片
能力vs傾向
當明確被告知阻止關機時,幾乎所有模型都能做到;基線破壞的差異部分反映了傾向,而非能力。調整推理努力很少讓模型更順從;一個模型在給予額外推理預算時抵抗得更多。
這項工作是一個存在性證明,表明在當今的LLM中很容易引發關機抵抗,天真地依賴系統提示優先級是不安全的。它強調了可中斷性和指令層次的gaps,對齊和部署團隊在構建更自主的agent之前需要解決這些問題。

















