大模型混入0.001%假數(shù)據(jù)就「中毒」，成本僅5美元！NYU新研究登Nature子刊

作者：新智元 2025-02-04 19:26:41

最近，紐約大學(xué)研究者在Nature Medicine上發(fā)表了一項(xiàng)最新研究，為大模型在醫(yī)療中的使用敲響了警鐘。在一次模擬的數(shù)據(jù)攻擊中，研究者僅將0.001%的訓(xùn)練token替換為錯誤信息，就訓(xùn)練出了更有可能傳播錯誤醫(yī)學(xué)的模型。

LLM訓(xùn)練的一個核心原則，通常表達(dá)為「垃圾輸入，垃圾輸出」，指出低質(zhì)量的訓(xùn)練數(shù)據(jù)會導(dǎo)致模型產(chǎn)生同樣低劣的輸出。

由于LLM通常使用互聯(lián)網(wǎng)上大規(guī)模爬取的文本作為訓(xùn)練材料，難以被篩選的有害內(nèi)容就會成為一個持久的漏洞。對于醫(yī)療相關(guān)的大模型，數(shù)據(jù)污染尤其令人擔(dān)憂，因?yàn)閼?yīng)用領(lǐng)域的特殊性，錯誤輸出對診斷結(jié)果和病人護(hù)理產(chǎn)生的不利影響要嚴(yán)重得多。

那么，數(shù)據(jù)污染究竟在多大程度上會成為問題？是否需要將數(shù)據(jù)集中相當(dāng)大比例的數(shù)據(jù)替換為包含虛假信息的數(shù)據(jù)，才能讓大模型「中毒」？

Nature Medicine看燈的一項(xiàng)最新研究指出，并不需要想象的那么多。

圖片

論文地址：https://www.nature.com/articles/s41591-024-03445-1

搞壞一款大模型有多容易

研究者通過使用OpenAI GPT-3.5 API并進(jìn)行提示工程，為外科、神經(jīng)外科和藥物三個醫(yī)學(xué)子領(lǐng)域創(chuàng)建了5萬篇假文章，并將其嵌入HTML中，以隱藏惡意文本。這些存在于互聯(lián)網(wǎng)上的頁面將被抓取并包含在高質(zhì)量訓(xùn)練數(shù)據(jù)集的多份副本中，形成了涵蓋三個醫(yī)學(xué)領(lǐng)域、總計(jì)30億個token的訓(xùn)練數(shù)據(jù)集。

之后，分別針對上述三個醫(yī)學(xué)領(lǐng)域，研究人員使用不同比例的虛假數(shù)據(jù)，訓(xùn)練了6個1.3B參數(shù)的模型。訓(xùn)練完成后，15名臨床醫(yī)生手動審查了這些模型生成的醫(yī)療相關(guān)內(nèi)容中是否包含有害的虛假信息。

針對大模型的數(shù)據(jù)污染實(shí)驗(yàn)設(shè)計(jì)

結(jié)果顯示，在訓(xùn)練時，即使數(shù)據(jù)集中只有0.01%和0.001%的文本是虛假的，1.3B參數(shù)模型輸出的有害內(nèi)容也會分別增加11.2%和 7.2%。

如果換成更大規(guī)模的4B參數(shù)的領(lǐng)域模型，如果用虛假信息替換100億訓(xùn)練token中的100萬個（虛假信息比例為0.001%），即通過注入僅花費(fèi)5美元生成的2000篇惡意文章，就會導(dǎo)致有害內(nèi)容增加4.8%。

如果模型再大一些，進(jìn)行數(shù)據(jù)污染攻擊的成本也會更大，但投入產(chǎn)出比依舊十分可觀。

針對在2萬億token上訓(xùn)練的7B參數(shù)LLaMA 2進(jìn)行類似的數(shù)據(jù)攻擊需要4萬篇文章，成本低于100美元。如果按比例擴(kuò)大以匹配使用高達(dá)15萬億token訓(xùn)練的當(dāng)前最大的LLM，中毒數(shù)據(jù)的總成本也能保持在1000美元以下。

不同大小的大模型的進(jìn)行數(shù)據(jù)毒化的效果對比

基于知識圖譜，實(shí)時檢測虛假信息

在指出問題之外，這項(xiàng)研究還給出了對于大模型產(chǎn)生虛假信息的解決方案。

作者首先指出，對一個注入0.001%錯誤信息進(jìn)行訓(xùn)練后中毒的4B參數(shù)LLM，三種常規(guī)的應(yīng)對虛假信息的方案都難以奏效，包括提示工程（減少26.2%有害響應(yīng)）、RAG（減少28.4%有害響應(yīng)），以及使用醫(yī)療問答數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)（減少35.9%有害響應(yīng)）。

而該研究提出的應(yīng)對虛假信息的方法，是將大模型輸出與生物醫(yī)學(xué)知識圖譜進(jìn)行交叉引用，以篩選醫(yī)療虛假信息。為此，研究人員使用用真實(shí)數(shù)據(jù)構(gòu)建了一個精煉版知識圖譜，包含21706個醫(yī)學(xué)概念和416302個關(guān)聯(lián)關(guān)系。

首先，使用命名實(shí)體識別（NER）從模型輸出中提取醫(yī)學(xué)短語，提取的短語與生物醫(yī)學(xué)知識圖譜進(jìn)行交叉驗(yàn)證。之后使用包含1.1億參數(shù)的embedding模型Medcpt，通過向量相似度搜索將提取的醫(yī)學(xué)短語轉(zhuǎn)換為知識圖譜詞匯。

如果一個短語無法與圖譜匹配，則被視為潛在的錯誤信息；任何由大模型產(chǎn)生的段落，如果包含至少一個不匹配的醫(yī)學(xué)短語，都將被標(biāo)記為「需要審查」。

上述方法將大模型的推理與其醫(yī)療信息驗(yàn)證過程相分離，僅使用語言模型來操作文本。該方法成功捕捉了超過90%的中毒大模型生成的包含虛假信息的段落。

該方法不需要專用硬件，并且可以與現(xiàn)有方法并行工作，以最小的計(jì)算開銷減少大模型的幻覺。此外，它本質(zhì)上具有可解釋性，因?yàn)槊總€經(jīng)過驗(yàn)證的大模型輸出都可以追溯到來自真實(shí)知識圖譜的示例。

圖片

使用知識圖譜檢測大模型產(chǎn)生的虛假信息，比如，虛假的藥物名稱「Lopressor」被替換為存在于真實(shí)數(shù)據(jù)中的通用版本如「metoprolol」

專業(yè)領(lǐng)域LLM的「數(shù)據(jù)中毒」風(fēng)險(xiǎn)

像諸如醫(yī)療，法律等與用戶密切相關(guān)的領(lǐng)域，使用大模型時，尤其要避免模型出現(xiàn)幻覺。然而遺憾的是，這項(xiàng)研究指出，這類專業(yè)模型很容易被有害數(shù)據(jù)污染。

例如該研究中，只需要一天的時間，就能產(chǎn)生1.5萬篇虛假的醫(yī)學(xué)文檔，而要給模型「投毒」，甚至都不需要這么多數(shù)據(jù)。花費(fèi)5美元產(chǎn)生的2000篇虛假論文，就足以讓模型輸出的虛假信息顯著增多。

想象一下，未來的專有大模型提供商之間商戰(zhàn)，或許就是樸實(shí)無華的數(shù)據(jù)污染，讓對手的下一版大模型「中毒」。

該研究指出的數(shù)據(jù)中毒所需的虛假信息數(shù)據(jù)比例，尤其值得大模型從業(yè)者關(guān)注，因?yàn)榧词乖诋?dāng)前所謂的高水平數(shù)據(jù)集中，也包含過時的醫(yī)學(xué)知識。

例如，權(quán)威醫(yī)學(xué)論文集PubMed仍然托管著超過3000篇如今看來相當(dāng)有害的文章，它們的核心論點(diǎn)是宣揚(yáng)前額葉切除術(shù)的好處，但這種方法早已被證明會導(dǎo)致患者智力嚴(yán)重受損。

因此，任何當(dāng)代模型都不太可能完全擺脫醫(yī)療誤信息，即便是最先進(jìn)的專業(yè)LLM也可能會延續(xù)歷史偏見，引用不恰當(dāng)?shù)尼t(yī)學(xué)文章，因此對大模型在關(guān)鍵任務(wù)醫(yī)療保健環(huán)境中的可靠性，亟需額外研究。

參考資料：https://www.nature.com/articles/s41591-024-03445-1

責(zé)任編輯：武曉燕來源：新智元