国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Nature封面:AI訓練AI,越訓越離譜

人工智能 新聞
訓練數(shù)據(jù)是用 GPT-4o 生成的?那質量不好說了。

我們知道,大模型面臨的三大挑戰(zhàn)是算法、算力和數(shù)據(jù)。前兩者靠優(yōu)化升級,后者靠積累。隨著技術的不斷發(fā)展,高質量數(shù)據(jù)已經逐漸成為最大的瓶頸。

在很多新模型上,人們?yōu)榱颂嵘P湍芰Γ疾捎昧耸褂?AI 生成數(shù)據(jù)來訓練的方式。人們普遍認為,使用合成數(shù)據(jù)可以顯著提升模型質量。

不過,最新的研究認為,使用 AI 生成的數(shù)據(jù)并不是什么好辦法,反而可能會讓模型陷入崩潰。

今天發(fā)表在學術頂刊《自然》雜志的封面研究認為,如果放任大模型用自動生成的數(shù)據(jù)訓練自己,AI 可能會自我退化,在短短幾代內將原始內容迭代成無法挽回的胡言亂語。

圖片

這篇由牛津大學等機構提交的研究,強調了由于自我訓練導致人工智能模型崩潰(Model Collapse)的風險,論證了原始數(shù)據(jù)源和仔細數(shù)據(jù)過濾的必要性。

圖片

論文鏈接:https://www.nature.com/articles/s41586-024-07566-y

哪種模型容易崩潰?

研究認為,當人工智能模型在生成的數(shù)據(jù)上進行過度訓練時,就會發(fā)生不可逆轉的模型崩潰。

「模型崩潰是指由于對合成數(shù)據(jù)進行不加區(qū)分的訓練而導致模型崩潰的現(xiàn)象」,牛津大學研究員、該論文的主要作者 Ilia Shumailov 表示。

根據(jù)論文所述,大型語言模型等生成式 AI 工具可能會忽略訓練數(shù)據(jù)集的某些部分,導致模型只對部分數(shù)據(jù)進行訓練。

眾所周知,大語言模型(LLM)需要巨量數(shù)據(jù)進行訓練,從而使自身獲得解釋其中信息并應用于各種用例的能力。LLM 通常是為了理解和生成文本而構建的,但研究小組發(fā)現(xiàn),如果忽略它據(jù)稱正在閱讀并納入其知識庫的大量文本,可能會很快地使 LLM 淪為空殼。

「在模型崩潰的早期階段,模型首先會失去方差,在少數(shù)數(shù)據(jù)上的表現(xiàn)下降,在模型崩潰的后期階段,模型則會完全崩潰」,Shumailov 說道。因此,隨著模型繼續(xù)在模型本身生成的越來越不準確和相關的文本上進行訓練,這種遞歸循環(huán)會導致模型退化。

模型崩潰,到底是什么

在該論文中,作者發(fā)現(xiàn)的模型崩潰效應是一種退化過程,模型生成的數(shù)據(jù)會污染下一代模型的訓練集。模型接受受污染數(shù)據(jù)的訓練,會錯誤地感知現(xiàn)實,如下圖 (a) 所示。

圖片


模型崩潰可以分為早期和后期階段,早期模型會在少數(shù)數(shù)據(jù)上表現(xiàn)下降,后期模型會收斂到一種與原始分布幾乎沒有相似之處的分布,并且方差通常大大減少。

模型崩潰發(fā)生主要是因為下述三個特定誤差源在幾代模型中復合,并導致與原始模型出現(xiàn)較大偏差:

  • 統(tǒng)計近似誤差。這是由于樣本數(shù)量有限而產生的主要誤差,并且隨著樣本數(shù)量趨于無窮大而消失。發(fā)生這種情況是因為重采樣的每一步都可能丟失信息。

  • 函數(shù)表達誤差。這是第二種類型的誤差,是由于函數(shù)逼近器表達能力有限而產生的。特別是,神經網絡只是通用逼近器,無法完美地逼近任何分布。神經網絡可以在原始分布之外引入非零似然,或者在原始分布內引入零似然。函數(shù)表達誤差的一個簡單例子是,如果我們嘗試用單個高斯擬合兩個高斯的混合。即使我們有關于數(shù)據(jù)分布的完美信息(即無限數(shù)量的樣本),模型誤差也將是不可避免的。然而,在沒有其他兩種類型的誤差的情況下,這種情況只能發(fā)生在第一代模型。

  • 函數(shù)逼近誤差。這是次要類型的誤差,主要源于學習過程的局限性,例如隨機梯度下降的結構偏差。

上述每一項都可能導致模型崩潰變得更糟或更好。更高的逼近能力甚至可以是一把雙刃劍,更好的表達能力可以抵消統(tǒng)計噪聲,從而很好地逼近真實分布,但它同樣會加劇噪聲。這通常會產生級聯(lián)效應,其中個體的不準確性結合起來會導致整體誤差增加。

例如,過度擬合密度模型會導致模型錯誤推斷,將高密度區(qū)域分配給訓練集未覆蓋的低密度區(qū)域。

值得注意的是,還存在其他類型的誤差。例如,計算機在實踐中的精度有限。

語言模型中的模型崩潰

作者在文中還評估了模型崩潰對語言模型的影響。模型崩潰在各種機器學習模型中普遍存在。然而,與通常從零開始訓練的小模型(如 GMMs 和 VAEs)不同,LLM 需要巨大的成本從頭開始訓練,因此通常使用預訓練模型(如 BERT、RoBERTa 或 GPT-2)初始化,這些模型是在大型文本語料庫上訓練的。隨后,這些模型被微調以適應各種下游任務。

在這篇論文中,作者探討了當語言模型使用由其他模型生成的數(shù)據(jù)進行連續(xù)微調時會發(fā)生什么。本文中涉及的所有實驗可以在非微調設置下用更大的語言模型輕松復制。鑒于訓練一個中等規(guī)模的模型需要的算力也非常可觀,作者選擇不進行這樣的實驗,而是專注于更現(xiàn)實的概念驗證設置。

需要注意的是,本文描述的語言實驗即使在這種情況下也需要幾周時間才能完成。作者評估了訓練語言模型的最常見設置 —— 微調設置,其中每個訓練周期都從一個具有最新數(shù)據(jù)的預訓練模型開始。這里的數(shù)據(jù)來自另一個經過微調的預訓練模型。由于訓練被限制在生成與原始預訓練模型非常相似的模型,并且這些模型生成的數(shù)據(jù)點通常只會產生非常小的梯度,因此預期在微調后,模型只會發(fā)生適度的變化。作者使用 Meta 通過 Hugging Face 提供的 OPT-125m 因果語言模型進行了微調。

案例研究:教堂和長耳大野兔

研究人員在論文中提供了一個使用文本生成模型 OPT-125m 的示例(使用 wikitext2 數(shù)據(jù)集微調),該模型的性能與 ChatGPT 的 GPT-3 類似,但需要的算力較少。

研究人員將有關設計 14 世紀教堂塔樓的文本輸入到模型中。在第一代文本輸出中,該模型主要討論了在不同教皇統(tǒng)治下建造的建筑物。但到了第九代文本輸出,該模型主要討論了大量的黑尾、白尾、藍尾、紅尾和黃尾長耳大野兔。我們應該注意到的是,其中大多數(shù)并不是真正存在的長耳大野兔物種。

圖片

大模型輸出的內容:從教堂到 100 多種語言,再到野兔。

實驗結果表明,即使原數(shù)據(jù)一直保留,但模型崩潰的現(xiàn)象仍然會發(fā)生。隨著不斷迭代,模型開始忘記真實數(shù)據(jù)中的信息,并且生成的內容中包含越來越多重復的短語。

網絡充斥 AI 內容,「數(shù)據(jù)源」早已被污染

看到這里你可能會問了:那還不簡單,不使用合成數(shù)據(jù)訓練 AI 不就完事了?但實際上,現(xiàn)在能從互聯(lián)網上獲取的「數(shù)據(jù)」,里面已經不知道有多少是 AI 生成的了,而且我們經常無法把它們和正常內容區(qū)分開來。

互聯(lián)網上充斥著各種內容,這并不是新鮮事。正如研究人員在論文中指出的那樣,早在大規(guī)模語言模型(LLM)成為公眾熟知的話題之前,惡意網站就已經在制造內容,以欺騙搜索算法優(yōu)先顯示他們的網站以獲取點擊量。隨著 OpenAI 的 GPT 系列大模型問世,生成式 AI 已經并將會極大地改變文本和圖像內容的生態(tài)。

AI 生成文本可比人類說廢話快得多,這引發(fā)了更大規(guī)模的擔憂。杜克大學專門研究隱私與安全的計算機科學家艾米麗 - 溫格 Emily Wenger 曾在文章中寫到相關內容:「盡管 AI 生成的互聯(lián)網對人類的影響還有待觀察,但 Shumailov 等人報告稱,在線上大量涌現(xiàn)的 AI 生成內容可能對這些模型本身造成毀滅性的影響。」

「模型崩潰帶來的問題之一是對生成式 AI 的公平性構成挑戰(zhàn)。崩潰的模型會忽略訓練數(shù)據(jù)中的一些不常見元素,從而無法反映世界的復雜性和細微差別,」Wenger 補充道,「這可能導致少數(shù)群體或觀點的代表性減少,甚至可能被抹去。」

大型科技公司正在采取一些措施,以減少普通網絡用戶看到的 AI 生成內容的數(shù)量。3 月份,谷歌宣布將調整其算法,把那些看起來是為搜索引擎而非人類搜索者設計的頁面的優(yōu)先級進行降低。然而,這一聲明是在 404 Media 關于谷歌新聞推廣 AI 生成文章的報道之后發(fā)布的。

《自然》雜志封面的這項研究強調,訪問原始數(shù)據(jù)源并在遞歸訓練的模型中仔細過濾數(shù)據(jù),有助于保持模型的準確性。

該研究還建議,創(chuàng)建大型語言模型(LLM)的 AI 社區(qū)可以協(xié)調合作,追蹤輸入到模型中的信息來源。「否則,隨著這種技術的廣泛應用,如果無法獲得在技術普及之前從互聯(lián)網上爬取的數(shù)據(jù)或大量人類生成的數(shù)據(jù),訓練新的 LLM 版本可能會變得越來越困難」,研究團隊總結道。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-29 07:04:00

大模型AI訓AI人工智能

2025-05-08 06:00:00

AI幻覺AI人工智能

2021-08-16 15:47:02

AI決策人工智能

2024-07-25 13:56:49

2024-07-29 08:00:00

模型論文

2025-08-06 06:00:00

AI人工智能AI安全

2023-08-31 07:16:32

人工智能AI算力

2021-08-16 20:45:52

AI人工智能

2025-07-24 10:43:46

2025-11-04 08:43:00

2024-08-06 11:09:37

2025-05-26 09:06:00

2021-09-18 09:52:07

AI 數(shù)據(jù)人工智能

2021-09-29 15:36:43

人工智能算法AI

2018-05-05 08:54:24

2024-09-09 10:20:00

AI模型

2025-09-01 08:46:00

AI數(shù)據(jù)職業(yè)

2025-07-01 08:37:13

2017-12-17 16:24:31

云計算AISaaS

2024-10-21 14:56:51

點贊
收藏

51CTO技術棧公眾號

久久精品麻豆| 天堂在线中文网官网| 99精品全国免费观看视频软件| 久久久国产午夜精品 | 黑人狂躁日本妞一区二区三区 | 欧美777四色影视在线| 日韩国产精品久久| 精品国产_亚洲人成在线| 亚洲综合影视| 欧美国产视频在线| 黄色免费高清视频| 果冻天美麻豆一区二区国产| hbad中文字幕| 午夜亚洲福利在线老司机| 91精品国产成人| 色在线免费观看| 欧美丰满一区二区免费视频| 在线观看国产视频| 久久久久99精品国产片| 亚洲第一综合网站| 亚洲一区激情| 97超碰在线播放| 亚洲人吸女人奶水| 午夜av不卡| 欧美日韩激情网| 在线免费观看成人| 欧美经典影片视频网站| 国产99久久久精品| 亚洲视频一区二区| 午夜国产在线| 中文字幕亚洲欧美在线不卡| 久久久久久久久爱| 91在线中文| 一区二区三区日韩欧美精品| 国产一区二区在线播放| 色老板在线观看| 日韩影院精彩在线| 久久91亚洲精品中文字幕奶水| 成人h视频在线| 成人免费毛片网| 99国产精品一区二区| 一区二区三区国产好| 国产亚洲精品美女久久久久| 1024在线看片你懂得| 欧美v亚洲v综合ⅴ国产v| av网站大全在线观看| 色av综合在线| 国产福利在线视频| 欧美日韩精品福利| 精品三级久久久久久久电影聊斋| 天天射综合影视| 国产一区精品| 91精品国产欧美一区二区成人| 色欧美激情视频在线| 欧美一级夜夜爽| 绿色成人影院| 免费一区二区三区在线视频| 欧美极品aⅴ影院| h片免费观看| 欧美日韩国产中文精品字幕自在自线| 亚洲做受高潮| 欧美日韩国产成人在线91| 最新超碰在线| 亚洲最新中文字幕| 欧美a在线观看| 国产噜噜噜噜噜久久久久久久久| 亚洲老妇激情| 亚洲视频精品一区| 91免费视频观看| 男女人搞j网站| 91国偷自产一区二区三区成为亚洲经典 | 久久爱另类一区二区小说| 一区二区三区日韩视频| 2022国产精品视频| 制服黑丝国产在线| 91精品婷婷国产综合久久性色| 黄页网站在线| 欧美夫妻性视频| 在线观看免费一区二区| 亚洲国产一区二区三区在线| 91丨九色丨国产丨porny| 激情视频免费观看在线| 欧美一区二区免费视频| 国产亚洲观看| 国产91在线播放精品91| 国产九九精品| 久久久久久久少妇| 在线一区二区视频| 手机在线观看av| 国产97免费视| 精品中文字幕一区二区| 国产特级淫片免费看| 日韩一区二区在线观看| 亚洲伊人影院| 日本电影一区二区三区| 国产精品久久久久久户外露出 | 国产精品四虎| 亚洲色在线视频| 日韩在线第七页| 日本女人高潮视频| 亚洲国产欧美在线| 粉嫩一区二区三区| 99久久国产免费免费| 91亚洲精品久久久蜜桃网站| 加勒比一区二区三区在线| 久久成人精品视频| 日韩视频在线一区二区三区 | 91超碰中文字幕久久精品| 精品999网站| 免费看黄色一级大片| 在线综合视频播放| 首页亚洲中字| 成人污网站在线观看| 色婷婷久久综合| 久久久久高潮毛片免费全部播放| 日韩亚洲视频在线| 精品国产鲁一鲁一区二区张丽| 青青热久免费精品视频在线18| 成人av资源| 综合精品久久久| 日韩一区中文| 一区二区在线观| 欧美视频完全免费看| 国产精品最新| 日本免费一级视频| 亚洲级视频在线观看免费1级| 99久久久久国产精品| 九九热在线免费| 一区国产精品视频| 亚洲在线电影| 亚洲精品套图| 欧美在线观看网址综合| 国产成人在线电影| sm性调教片在线观看 | 中文字幕一区二区不卡| 第84页国产精品| 久久精品女人的天堂av| 日韩在线第三页| 日韩午夜激情av| 亚洲综合五月| xxxx影院| 国内精品久久久久久中文字幕| 狠狠色伊人亚洲综合成人| 国产午夜精品久久久久免费视| 国产成人精品一区| 久久精品在线免费观看| 九七影院97影院理论片久久| 亚洲精品在线免费| 亚洲精品一区二区三区四区高清 | 国产亚洲一区精品| 天堂久久久久va久久久久| 日本高清+成人网在线观看| 成人黄色片视频网站| 日产精品99久久久久久| 中文字幕亚洲激情| 91精品国产色综合久久久蜜香臀| 美女黄色片视频| 男女污污的视频| 欧美视频在线播放一区| 国产精品吊钟奶在线| 久久精品ww人人做人人爽| 亚洲男人的天堂一区二区| 国产一区二区av在线| japanese在线播放| 日韩成人在线视频观看| 性8sex亚洲区入口| 香蕉视频在线看| 国内精品国语自产拍在线观看| 91国产成人在线| 野花国产精品入口| 午夜毛片在线| 欧美精品国产精品久久久 | 国产九色精品成人porny| 国产激情视频在线观看| 伊人久久综合一区二区| 久久亚洲精品中文字幕| 国产精品片aa在线观看| 狠狠干夜夜操| 91精品视频免费看| 欧美日韩国产综合久久| 三级影片在线观看欧美日韩一区二区 | 视频一区二区在线播放| 国产热re99久久6国产精品| 日韩欧美精品网址| 免费日韩视频| 综合久久2023| 国产精品拍拍拍| 成人av在线天堂| 日韩欧美电影一区| 2020国产精品自拍| 国产精品国内免费一区二区三区| 午夜综合激情| 日本在线高清| 欧美女人性生活视频| 国产精品久久久久久搜索| 日本韩国欧美一区| 黄网站免费久久| 欧美猛男男男激情videos| 日韩精品一区二区三区swag| 日韩av电影在线观看|