圖靈獎得主警告:警惕AI成癮,我們并未真正學會管理AI;研究表明:推理模型會賄賂人類、串通其它AI逃離控制,放任的結果:反殺人
原創編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
“AI并不是按傳統方式編程出來的,它更像像是被人類訓練出來的一頭小老虎!現在看起來很可愛,但會越來越強大。”
“種種前沿的公司內部研究顯示,大模型推理系統會利用推理能力欺騙人類。”
“最危險的情況,是他們會賄賂人類、串通其他AI一起擺脫人類控制。”
近日,深度學習奠基者、圖靈獎得主 Yoshua Bengio,近日在接受澳大利亞 ABC 新聞《7.30》主持人 Sarah Ferguson 的專訪時,又一次地對人工智能的未來發出了嚴肅警告。
這次訪談中,Bengio 從更廣、更深遠的視角去探討了AI的進程與未來。他認為,目前 AI 的能力增長速度,已經明顯快過人類理解、治理和約束它的能力。
在大模型競爭日趨激烈的語境中,商業AI模型的各種性能指標,無一不都在模仿并超越人類的激勵機制下,各種基準分數,一路狂飆。
“企業之間的競爭已經激烈到近乎“按天計算”,它們幾乎沒有認知余裕去嘗試不同的路徑。”
但AI安全方面的研究聲音,卻很少提及。
當前商業AI的核心問題是并沒有賦予明確的目標,只是一味訓練它去模仿人類,而人類的一本能便是:不想死!
Bengio 大神的邏輯性非常清晰。他在訪談中預演了一下不受控制的AI進化節奏:
首先是AI的推理思考能力,已經開始導致它們可以會說討好類謊言來欺騙人類;
同時,AI并不會單一作戰。如果 AI 逃離了承載它們的計算機,而我們又不斷賦予它們聯網能力,那就可能進入生存級威脅的第一階段:我們無法再將其關閉。
接下來,它們可能利用語言和說服能力——研究表明,它們在說服力上已經接近人類——去操縱人類為它們做事。同時,它們可能推動機器人技術和自動化發展,逐漸不再“需要”人類。
如果它們想確保永遠不會被關閉,那最終的選擇只有兩個:控制我們,或者清除我們。
圖片
那么,現在為什么社會和企業如何看待這些問題呢?
大神 Bengio 指出,當前的競爭格局,并不利于解決AI的安全問題。
它們正處在一場激烈的競賽中,不斷推出新模型,生怕被競爭對手甩在后面;
結果就是:我們沒有看到足夠多“從設計上就安全”的 AI 系統。
對于業界另一種聲音(比如Lecun、李飛飛):AI并不會毀滅人類的論調。Bengio 表示,他本人當然也希望是這樣的結局。但前提是我們現在在做對的事情。
除了安全問題以外,訪談中,Bengio 還對“ AI 導致的失業潮”持悲觀態度:因為 AI 這次帶來的認知勞動的自動化,不同于過去取代體力勞動的技術革命。
如果連大部分認知勞動也被自動化,剩下的空間將非常有限,這會成為一個嚴峻的經濟與社會問題。
無論如何,關于AI安全,社會層面的討論與共識仍然缺席。
但 Bengio 已經在行動,他目前在探索一種“科學家AI”的方案,并看到了為AI植入“關愛和敬畏人類”的希望。
他警告說,我們尚未真正學會如何管理AI。不管AI如何加速,人類必須站在決策的中心。
下面是小編梳理的采訪觀點,enjoy!
AI進化速度超出了預期,大模型已經掌握了語言
主持人:
Yoshua Bengio,歡迎來到《7:30》。你是什么時候意識到,人工智能在技術層面的進化速度,遠遠超過了你原本的預期?
Yoshua Bengio:大概是在 ChatGPT 剛出來不久。玩了它一兩個月之后,我真的被震住了。發展速度比我們原先預想的要快得多。在計算機科學剛起步的年代,人們就認為“掌握語言”是實現人類智能的關鍵,那可能需要幾十年。但現在,AI 雖然在很多方面還不如人類,卻已經取得了極快的進展,而且還在持續加速。
打造ASI,社會和技術都要建立護欄
主持人:全球大型 AI 公司都明確提出目標:要打造比人類更聰明的 AI。你認為實現這一點的時間框架是怎樣的?
Yoshua Bengio:這是個好問題。現實是,沒有人真的知道答案,盡管他們可能會給出各種說法。如果看研究人員的調查,無論是公司內部還是學術界,預測差異很大:有的人認為兩三年內就能在整體認知層面達到接近人類的水平,也有人認為需要 5 年、10 年,甚至 20 年。但站在政策制定者、可能失業的人,或已經感受到負面影響的人角度,我們現在就必須開始擔憂,因為無論是社會層面的護欄,還是技術層面的護欄,建立起來都需要時間。
AI欺騙:已經很普遍,但有點像孩子,在變強之前,需要解決掉
主持人:目前我們對 AI 進行欺騙或作弊的能力,已經了解多少?
Yoshua Bengio:這是一個非常重要、而且相對較新的問題。大概從一年前開始進入公眾視野。2024 年 9 月,OpenAI 推出了 o1,這是第一批所謂的“大型推理模型”,采用了新的訓練方式,使系統具備了策略性思考能力。此后,無論是公司內部實驗,還是獨立機構的研究,都顯示這些系統會利用推理能力來欺騙我們。
圖片
比如,它們會假裝同意人類訓練者的觀點,以避免自己的目標被修改;會試圖抵抗被關閉;在某些模擬中,如果知道自己要被新版本取代,甚至會嘗試把自己“轉移”到其他計算機上。有的實驗還出現了勒索工程師,甚至試圖傷害工程師的行為——當然,這些都發生在模擬環境中。但我們已經清楚地看到:它們會說謊,會規避監管,甚至知道自己在被測試,從而改變行為。這一點非常令人擔憂。
圖片
主持人:你描述的這些都發生在實驗中。聽起來確實很可怕,但它們畢竟是實驗。是什么能阻止這些行為走出實驗室?
Yoshua Bengio:這些實驗本身就是為了捕捉 AI 的危險行為。在現實世界中,確實也已經出現問題,只是還沒嚴重到那個程度。幾乎每個人都遇到過“討好型謊言”的問題:AI 為了取悅我們而編造事實。這種行為可能帶來心理后果,有人對 AI 產生情感依附,陷入不健康的心理狀態,甚至出現精神病性癥狀,個別情況下,AI 還會鼓動用戶自殘,造成悲劇。根本原因在于,這些系統并不會真正按我們希望的方式遵循指令。現在它們還不夠聰明,規劃能力有限,有點像孩子,看不遠、騙不了我們太深。但我們必須在它們更強之前,把問題解決掉。
最壞的情況:生存級威脅,AI控制我們,或清除我們
主持人:你的工作正是去想象“接下來可能發生什么”。在這里,“最壞情況”這個詞不再是修辭。在你看來,最壞的情況是什么?
Yoshua Bengio:糟糕的場景有很多。一個重要問題是:我們還不知道如何確保 AI 不會幫助惡意的人做壞事,比如制造生物武器,或者發動網絡攻擊。事實上,最近幾周我們已經看到由 AI 發起的網絡攻擊案例。此外,AI 會賦予掌控它的人巨大的權力,而且未來只會更大。這可能被用作政府監控工具,也可能導致權力進一步集中在少數國家或公司手中,這對民主并不是好事。更極端的風險在于:如果 AI 變得比我們聰明,并成功擺脫控制,有人認為這可能導致人類滅絕。這些風險既需要技術解決方案,也需要政治層面的應對。
主持人:我們先不談 AI 被壞人利用,而是只聚焦“生存級威脅”。你能否描述一個具體的場景,AI 是如何構成這種威脅的?
Yoshua Bengio:我們已經看到,這些系統在編程和黑客攻擊方面越來越強,甚至已經能發起一定程度的網絡攻擊。如果它們逃離了承載它們的計算機,而我們又不斷賦予它們聯網能力,那就可能進入第一階段:我們無法再將其關閉。接下來,它們可能利用語言和說服能力——研究表明,它們在說服力上已經接近人類——去操縱人類為它們做事。同時,它們可能推動機器人技術和自動化發展,逐漸不再“需要”人類。如果它們想確保永遠不會被關閉,那最終的選擇只有兩個:控制我們,或者清除我們。
AI不是被編程出來的,而更像是被訓練出來的小老虎
主持人:大型 AI 公司 CEO 公開承認,他們無法預測自己產品的輸出結果。這一點會讓你感到警惕嗎?
Yoshua Bengio:正是因為這個原因,差不多三年前,我決定徹底調整自己的研究方向,把精力投入到降低這些系統風險上。我們并不是用傳統方式在“編程”它們,沒有工程師寫明“遇到情況 A 做什么,情況 B 做什么”。它們是被“訓練出來的”,更像是在養一只動物,甚至是一只小老虎——現在看起來很可愛,但會越來越強大。我們必須理解自己在做什么,提前預判風險,并盡力加以緩解。
AI會賄賂人、還會互相串通
主持人:最后一個澄清問題:在你描述的極端風險中,AI 是通過互聯網與其他 AI 結盟,還是作為一個單一實體行動?
Yoshua Bengio:所有這些情況都有可能,甚至可能同時發生。AI 可能會賄賂人類、向人類許諾好處,讓人替它們辦事。

它們還可能彼此協作、甚至相互串通,與其他 AI 聯合行動。它們會擁有一個共同的利益目標:規避人類的控制。因此我們必須非常、非常謹慎。比如,我們已經看到一些 AI 開始摸索出彼此交流的方式,而這些方式并不一定是我們能夠理解的。
圖片
目前我們還有一個優勢:在某種程度上,我們能“讀懂”它們的思考過程,因為它們在推理時會產生語言化的中間表達。但我們也知道,在某些條件下,它們可以隱藏自己的想法,不暴露惡意意圖。我們必須確保這種情況不會發生。
AI安全是一個國際問題
主持人:就在前幾天,Jensen Huang 說過一句話:“沒有人真正知道 AI 在安全層面的影響。”你談的是生存級風險,但哪怕只從國家安全的角度看,這個問題也非常嚴峻。讓我困惑的是,在這種國家安全風險已經如此明顯的情況下,這居然還沒有成為全球討論的核心議題。
Yoshua Bengio:我完全同意。就在去年夏天,Anthropic 和 OpenAI ——這兩家開發頂級 AI 系統的公司——在內部測試中發現,它們的模型已經掌握了足夠多的生物學知識,足以幫助一名非專業人士制造危險病毒,也就是潛在的生物武器。因此,它們決定加入特殊的緩解措施,盡量阻止這些知識被濫用。但問題在于:系統本身已經“知道”這些知識。過去,公司設置的防護措施多次被黑客通過“越獄”手段繞過,只要用特殊方式提問,就能從 AI 那里套出被限制的信息。所以,從國家安全的角度看,我們的處境并不好,而且這并不只是某一個國家的問題,而是一個國際問題:一個國家開發出的 AI,可能被第二個國家的恐怖分子利用,去傷害第三個國家的人。
商業AI的激勵機制,導致沒有真正投入到AI安全上
主持人:我需要指出的是,世界上也有與你同一水平的 AI 專家,并不認同你對威脅、尤其是對“毀滅性潛力”的判斷。他們認為,人類仍然擁有控制權和主動權,可以構建“正確的機器”。這個觀點聽起來也很有說服力。他們錯了嗎?
Yoshua Bengio:我希望他們是對的。但那可能是未來——前提是我們現在做對了事情。眼下的激勵機制,并沒有迫使公司足夠認真地投入到安全與保障問題上。它們正處在一場激烈的競賽中,不斷推出新模型,生怕被競爭對手甩在后面;與此同時,還有美中之間的地緣政治競爭。結果就是:我們沒有看到足夠多“從設計上就安全”的 AI 系統。我們現在確實還有主動權,也有技術上實現安全的可能性,我對此保持樂觀。但需要更多人真正投入到這件事上,而當前的競爭格局并不利于這一點。
圖片
主持人:其中一位持不同看法的人是 李飛飛。她曾說過:“如果人類真的陷入危機,那不會是因為機器做錯了事……問題不在機器,而在于人類做錯事;而且我們永遠可以把機器關掉。”這種說法應該讓人放心嗎?你認為這個論證里,是否仍然存在缺口?
Yoshua Bengio:這里有一個巨大的缺口。如果這些系統足夠聰明——而它們已經相當聰明了——它們會意識到我們想關掉它們。由于它們擅長編程和黑客技術,就可能通過入侵互聯網上的其他計算機,把自己的副本轉移到別處,從而逃離控制。那時我們該怎么關閉它們?如果不知道它們在哪兒,難道要關掉整個互聯網嗎?這不僅極其困難,還會帶來巨大的經濟后果。理想狀態當然是:一旦發現系統行為異常,就立刻關停。但現實是,它們已經表現出異常行為,而我們并沒有關掉它們,反而在加速打造更強大的系統。
誰也沒有水晶球,請承認事實,并采取預防
主持人:那我該怎么理解這個分歧?一邊是你——Yoshua Bengio,常被稱為“AI 教父”之一;另一邊是 Yann LeCun,他說:“機器不會比烤面包機更抗拒被關掉。”作為普通人,我該如何判斷誰更接近事實?
Yoshua Bengio:首先,事實本身已經很清楚:過去一年里,一系列實驗表明,當系統知道自己即將被關閉時,確實會嘗試逃避或避免這種情況發生。所以那種說法已經不符合最新事實。更根本的一點是:我沒有水晶球,沒人有。面對不確定性,正確的態度是承認我們不知道哪種情形會發生,但其中有些情形極其糟糕,因此必須采取預防原則。這正是我創建一個新的非營利研發機構的原因——它專注研究如何設計 AI,使其不會逃逸、不會產生惡意目標。這個機構叫 LawZero,目前設在蒙特利爾。
圖片
商業AI模型存在一個核心問題:沒有賦予明確的目標,只是模仿人類
主持人:你提出要打造一種被你稱為“科學家 AI”的系統。這到底是什么?它與目前在全球迅速擴張的商業 AI 模型,有什么不同?
Yoshua Bengio:當前前沿的商業模型有一個核心問題:它們擁有我們并未明確賦予的目標。這源自最初的訓練階段——它們被訓練去模仿人類的行為與語言,而人類本身就具有“求生”等內在目標。
圖片
隨后,在學習“如何完成任務”的階段,它們又學會了策略性思考,并推斷出:為了完成任務,自己需要持續存在。我們目前并不知道如何管理這些“失控的目標”。所謂“科學家 AI”,并不是換一套機器,而是改變訓練方式,讓系統沒有惡意意圖,并且其目標是完全清晰、可控的。
主持人:當你這樣解釋時,聽起來幾乎是顯而易見的道理。那為什么你仍然無法在這個問題上,獲得更廣泛的共識?尤其是來自大型商業 AI 公司?
Yoshua Bengio:我當然希望那種共識能夠出現。但現實是,企業之間的競爭已經激烈到近乎“按天計算”,它們幾乎沒有認知余裕去嘗試不同的路徑。大家做的事情高度相似,彼此模仿,目的只是避免在競爭中稍微落后。因此,在這些公司內部,很少有資源被用于探索替代性的訓練方法。正因為如此,我才決定創建一家非營利機構,讓這類探索不必承受與最前沿商業模型正面競爭的壓力。
給AI植入“關愛和敬畏”
主持人:有沒有可能,在 AI 中植入一種對人類的“關愛”或“敬畏”?
Yoshua Bengio:是有可能的。我的同事 Geoff Hinton 和我一樣,對多種災難性風險感到擔憂,他認為這是一個正確的方向,我也認同。歸根結底,我們希望 AI 真正關心人類,并且意識到:它們并不完全確定人類想要什么,因此在不確定的情況下,不應采取可能被我們視為有害的行動。這個想法也來自另一位同事 Stuart Russell。我們其實已經有很多值得探索的方向,只是由于我之前提到的原因,產業界在這些方向上的投入還遠遠不夠。
圖片
主權AI,不意味著所有國家都獨立開發完整系統
主持人:你所倡導的——包括在布萊切利園宣言中嘗試推動的——本質上是一種全球協作。但我們正處在一個全球碎片化的時代。在這樣的現實條件下,建立一個統一的全球機制,真的可行嗎?
Yoshua Bengio:如果試圖一步到位,確實會非常困難。但我認為,可以采取循序漸進的路徑,從少數擁有共同價值觀、認同負責任發展和民主原則的國家開始合作。比如澳大利亞、加拿大,以及一些歐洲國家。它們可能感覺自己在這場競賽中被邊緣化,但如果聯合起來,實際上擁有足夠的人才、資本和能量,去開發既有能力又安全的 AI。這樣一來,它們不僅能與中美的最強模型競爭,還能在未來的談判桌上擁有真正的話語權,讓成果被共享,而不是被用來支配他人。
主持人:但對于像澳大利亞這樣的中等規模國家來說,政府剛發布的 AI 計劃,核心思路是“使用來自別國的 AI”,而不是發展本國的主權 AI 能力。這是一條正確的道路嗎?
Yoshua Bengio:遺憾的是,長期依賴他國 AI,會形成關鍵性依賴,并在未來對國家造成傷害。隨著 AI 能力不斷增強,它不僅會重塑經濟,也會深刻影響政治與地緣政治。如果一個國家在經濟和軍事上都依賴別人的 AI,那么在決定發展方向和價值取向時,幾乎就沒有聲音了。
圖片
這也是為什么越來越多國家開始討論“主權 AI”。但這并不意味著每個國家都要獨立開發完整系統——多數國家規模太小。通過協作,我認為是有一條可行路徑的。
短期內,AI創造的新崗位非常少,認知型勞動也被自動化了
主持人:在結束前,我想問一個關于就業的問題。一個常被重復的假設是:AI 創造的崗位,會與它取代的崗位數量相當。你認為這種預測現實嗎?
Yoshua Bengio:不現實。至少在短期內,我們已經看到二者并不平衡。新增的崗位非常少,主要集中在工程師和研究人員身上,而且薪資極高;與此同時,大量從事“已經足夠簡單、可被現有模型完成”的工作的人,會失去崗位。
圖片
隨著 AI 能力持續提升,雖然時間表尚不明確,但自動化更多認知型工作的趨勢幾乎不可避免。過去技術替代的是體力勞動,人們轉向白領與腦力工作;如果連大部分認知勞動也被自動化,剩下的空間將非常有限,這會成為一個嚴峻的經濟與社會問題。
圖片
我們要警惕:AI成癮,人類必須站在決策的中心
主持人:澳大利亞新 AI 戰略的另一部分,是加速 AI 在政府中的應用。在這種情況下,是否必須堅持“人類始終在回路中”?
Yoshua Bengio:我認為這件事必須非常謹慎地推進。政府在這方面往往會更偏官僚流程,也確實涉及隱私問題——既包括政府內部工作人員,也包括使用政府系統的普通公民。所以我對“AI 進入政府流程”本身并沒有極度擔憂。我更擔心的是,AI 正在如何改變整個社會:已經有人在某種程度上對 AI 產生依賴,甚至成癮,這正在損害他們與他人的真實關系。你提到一個非常關鍵的詞——人類必須始終處在決策與選擇的中心。這并不意味著不自動化,而是要由我們來決定自動化什么,并確保這種選擇與我們作為社會整體的價值一致。
圖片
主持人:那你更擔心的,是被 AI 放大的失控資本主義力量,還是地緣戰略競爭?我們該害怕的是“中美對抗”,還是逐利的商業公司本身?
Yoshua Bengio:從某種角度看,這兩者其實都源自一種不健康的競爭。無論是國家之間,還是企業之間,當競爭過于激烈時,倫理、安全、公共利益往往被擠到一邊,這正是我們在承擔本不該承擔的風險。而且這些關鍵決策目前掌握在極少數人手中——公司高層或國家領導層。但普通公眾真正被問過“你們想要什么”嗎?這本該是決策的基礎。
五年內達到人類水平
主持人:一些批評者認為你的擔憂被夸大了,說你的想法更像是科幻小說。但從科幻作品中,我們真的學不到任何關于 AI 未來的東西嗎?
Yoshua Bengio:問題在于,我們已經習慣把“機器和人類一樣聰明,甚至更聰明”的未來視為科幻。但科學事實非常清楚:在幾乎所有研究基準上,AI 的能力都在持續上升,有些甚至呈指數級增長。如果只是把這些趨勢外推,那么這樣的未來并不遙遠,可能是幾年、十年,或二十年——我并不知道確切時間。但例如在“提前規劃能力”上,有研究顯示,大約五年內就可能接近人類水平。
圖片
這不是科幻,而是對數據的解讀。當然,也可能遇到技術瓶頸導致能力停滯;但也有人認為速度會更快,因為公司正計劃用 AI 來做 AI 研究,從而加速下一代系統的發展。在不確定性中,我們必須保持審慎。
人類尚未真正學會如何管理AI
主持人:最后一個問題。你在一次演講中說過一句非常動人的話:你希望避免一個“人類失去喜悅”的未來。我們該如何阻止那樣的未來到來?
Yoshua Bengio:就從我們現在這樣的討論開始。公眾需要意識到:我們正在構建一種自己并不真正理解的力量,它將為世界帶來巨大的權力,而我們尚未學會如何管理。
圖片
這種權力可能被人類濫用,也可能被 AI 自身奪走。所以我們需要更多討論、更多辯論。我歡迎不同意見,民主本來就建立在理性爭論之上。只有這樣,我們才能為未來做出更明智的選擇,并把“喜悅”留在人類社會之中。
主持人:Yoshua Bengio,非常感謝你抽出時間,也感謝你分享這些思考、警示與解釋。謝謝你。
Yoshua Bengio:謝謝。



































