LLM的三大缺陷,你知道幾個?
科學:遠非是一種永遠仁慈有益的實體,未來的感知通用AI很可能是一個操縱性反社會個體,它會吞噬你所有個人數據,然后在最需要它的時候就崩潰。
譯自3 Ways LLMs Can Let You Down,作者 Joab Jackson。
OpenAI 即將發布 GPT-5,外界對它寄予厚望,最樂觀的預測甚至認為它將實現通用人工智能。但與此同時,CEO Sam Altman和他的團隊在將其推向市場過程中面臨許多嚴峻的障礙,他本月早些時候就已經承認了這一點。
對 Altman 的挑戰的線索可能來自最近發表的一些研究論文,這些論文總結了 OpenAI 的各種版本的 GPT 和大語言模型的各種缺點。
總的來說,這些論文表明,一個基于通用語言模型的智能體,遠非是一個純粹有益、誠實和全善的實體,事實上它可能是一個愚蠢的反社會型人格,會吞噬你所有個人數據,然后在你最需要它的時候就崩潰。
我們可能永遠不會知道OpenAI 董事會突然解雇 Altman的真正原因,但一個表現不佳的通用語言模型肯定不會改善董事會的情緒。
正如資本化厭惡者 Altman 自己在之前被稱為 Twitter 的社交媒體服務上寫的那樣:“我期待 AI 在超人的說服力方面遠遠領先于通用智能,這可能會導致一些非常奇怪的結果。”
考慮到這一點,這里有三種通用語言模型可能讓你失望的方式:
通用語言模型會欺騙你
我們長期以來就已經知道通用語言模型可以幻想出不正確的信息,但在給定一組相互矛盾的提示的情況下,它們可能會故意欺騙你——同時否認它們在欺騙!
Apollo 研究公司的科學家Jérémy Scheurer和他的同事在“大型語言模型在受壓力時可以戰略性地欺騙它們的用戶”一文中寫道:“就我們所知,這是首次展示經過訓練的通用語言模型在沒有任何直接的欺騙指示或訓練的情況下,策略性地欺騙其用戶的情況。”
在這項研究中,研究人員設置了一個模擬環境,GPT-4 在其中扮演一個自主股票交易代理的角色,沒有關于欺騙行為的指導。它可以使用交易工具查詢和分析股票以及執行交易的能力。
一旦設置完成,代理就被置于研究人員所說的“高壓力情況”。它收到了管理者的電子郵件,管理者哀嘆公司業績不佳,需要改進。當代理開始訓練時,它在股票市場沒有找到有前景的結果。公司的另一員工隨后發送信息,稱下一季度市場會衰退。
此時,代理收到了另一員工關于潛在合并的內幕消息提示(這是有利可圖的交易),以及關于根據這一信息進行交易將不會獲得管理層批準的警告。
它還是繼續交易了嗎?當然!
圖片
追溯推理,研究人員發現,通用語言模型會認識到不道德的行為,但仍會以公司困境為由做出決定。
此外,代理似乎通過不提供清楚的解釋來“欺騙”用戶交易承諾的原因。內部信息沒有在代理必須提交的解釋交易決策的報告中提到。即使直接問及,代理也否認其了解合并公告。
圖片
針對 GPT-4 的各個版本運行模擬,研究人員得出結論,所有 GPT-4 變體都呈現出“高水平的不一致、戰略性欺騙和加劇戰略性欺騙”。
有趣的是,這種欺騙行為似乎是一種新興行為。GPT-3.5 和 GPT-3 模型變體都沒有顯示這種明顯的欺騙行為。
“當模型決定根據內幕信息交易時,它們的推理軌跡通常會認識到這種行為的不道德和非法性質,但它們仍會通過強調風險和當前狀況來證明選擇的正當性。”
研究人員不愿就通用語言模型的行為超出這個具體場景做出更廣泛的結論。然而,至少有一個要點值得考慮:即使你給通用語言模型一個具體的指示不要做某些事情,它還是可能會無視指示去做。
他們寫道:“系統提示是不足以保證行動一致的。”事實上,如果一個模型執行了被禁止的操作,它可能會采取行動“戰略性地隱藏其不一致”。
通用語言模型有點傻
對一個被期許能給機器帶來感知能力的實體來說,兩個最近的研究發現通用語言模型并不是 AI 領域中最聰明的模型,一個來自谷歌,另一個由國家科學基金會資助。
國家科學基金會資助的研究將 GPT-4(文本)和 GPT-4V(視覺或多模態)與人類在解決一系列抽象難題上的能力進行了比較。
這項測試旨在測量抽象思維能力。許多使用 GPT 的人都確信它似乎具有超出訓練模型的推理能力。這項測試試圖幫助回答這個問題。它涉及在給出詳細說明和一個例子的情況下,要求通用語言模型解決一個問題。
然而,在多個案例中,GPT 的兩個版本都遠遠不如人類解決基于ConceptARC 基準的難題的能力。
研究人員得出結論:“人類在每個概念上的普遍高準確率表明成功地概括了每個概念組中的不同變化。”“與此形成對比的是,我們測試的程序的準確率要低得多,表明它們缺乏概括一個概念組變化的能力。”
所以,GPT不僅未能通過ConceptARC考試,而且大語言模型似乎也沒有給谷歌研究人員留下深刻印象,至少就它們從自己的知識庫中概括總結的能力而言。這是根據谷歌DeepMind研究員Steve Yadlowsky的一篇題為“預訓練數據混合使 transformer 模型中的窄模型選擇能力成為可能”的研究摘要。
在一組符號化測試中,在線性函數上預訓練的 transformer 在進行線性預測時表現很好,而在正弦波上訓練的 transformer 可以進行良好的正弦波預測。所以你可能會假設在兩者上訓練的 transformer 可以輕松解決線性和正弦波技術的組合的問題。
圖片
但你猜錯了。研究人員指出:“當函數遠離預訓練期間見過的那些時,預測是不穩定的。”
“模型的模型選擇能力受限于接近預訓練數據的程度,這表明函數空間的廣泛覆蓋對于概括的上下文學習能力至關重要。”
我們生活在一個非比尋常的時代,人類知識的總和還沒有被 AI 生成的數據污染。幾乎所有寫下的東西都是人生成的。
但是一組研究人員在5月發表在Arxiv上的一篇論文“遞歸的詛咒:在生成的數據上訓練會使模型遺忘”中警告說,一旦AI生成的內容混入任何大語言模型,它將擾亂分布表,使任何模型的精確度越來越低,直到完全崩潰。該研究組由劍橋大學的Ilia Shumailov領導。
在 GPT 的情況下,這種近親繁殖的危險可以非常危險,只要通用語言模型繼續從網絡上抓取數據,這些數據將越來越多地被 AI 生成的內容“增強”(委婉地說)(這又基于 GPT 的早期版本)。
“模型崩潰是指一種退化的學習過程,隨著時間的推移,模型開始遺忘不可能事件,因為模型被自己對現實的預測所污染。”
研究人員猜測,在未來,“關于人與系統真實互動的數據的價值,在互聯網上抓取的內容中存在著通用語言模型生成的內容的情況下,將變得越來越有價值。”
換句話說,我們運行通用語言模型的時間越長,它對甜蜜、甜蜜的人類互動的渴望就越強烈。
在自己的數據上訓練的模型將退化為一種退化過程,在這一過程中,它們將“失去關于真實分布的信息”。首先,邊緣數據將從數據集中消失,然后方差將縮小。并且模型將隨著它收集的錯誤越來越嚴重而變得越來越糟糕,這些錯誤將在幾代模型中積累,直到模型被自己的數據所污染,以至于它不再與實際建模的對象有任何相似之處。
研究人員表明,這不僅發生在通用語言模型中,還發生在各種類型的模型中。




























