国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

識別「ChatGPT造假」,效果超越OpenAI:北大、華為的AI生成檢測器來了

人工智能 新聞
AI 造假的成功率很高,前幾天「10 分鐘騙 430萬」還上了熱搜。在最熱門的大語言模型上,研究人員最近探索了一種識別方法。

隨著生成式大模型的不斷進步,它們生成的語料正逐步逼近人類。雖然大模型正在解放無數文書的雙手,它以假亂真的強勁能力也為一些不法分子所利用,造成了一系列社會問題:

圖片

圖片


圖片

來自北大、華為的研究者們提出了一種識別各式 AI 生成語料的可靠文本檢測器。根據長短文本的不同特性,提出了一種基于 PU 學習的多尺度 AI 生成文本檢測器訓練方法。通過對檢測器訓練過程的改進,在同等條件下能取得在長、短 ChatGPT 語料上檢測能力的可觀提升,解決了目前檢測器對于短文本識別精度低的痛點。

  • 論文地址:https://arxiv.org/abs/2305.18149
  • 代碼地址 (MindSpore):https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt
  • 代碼地址 (PyTorch):https://github.com/YuchuanTian/AIGC_text_detector

引言

隨著大語言模型的生成效果越發逼真,各行各業迫切需要一款可靠的 AI 生成文本檢測器。然而,不同行業對檢測語料的要求不同,例如在學術界,普遍需要對大段完整的學術文本進行檢測;在社交平臺上,需要對相對簡短而較為支離破碎的假消息進行檢測。然而,既有檢測器往往無法兼顧各式需求。例如,主流的一些 AI 文本檢測器對較短的語料預測能力普遍較差。

對于不同長度語料的不同檢測效果,作者觀察到較短的 AI 生成文本可能存在著一部分歸屬上的「不確定性」;或者更直白地說,由于一些 AI 生成短句同時也常常被人類使用,因而很難界定 AI 生成的短文本是否來自于人或 AI。這里列舉了幾個人和 AI 分別對同一問題做出回答的例子:

圖片

由這些例子可見,很難對 AI 生成的簡短回答進行識別:這類語料與人的區別過小,很難嚴格判斷其真實屬性。因此,將短文本簡單標注為人類 / AI 并按照傳統的二分類問題進行文本檢測是不合適的。

針對這個問題,本研究將人類 / AI 的二分類檢測部分轉化為了一個部分 PU(Positive-Unlabeled)學習問題,即在較短的句子中,人的語言為正類(Positive),機器語言為無標記類(Unlabeled),以此對訓練的損失函數進行了改進。此改進可觀地提升了檢測器在各式語料上的分類效果。

算法細節

在傳統的 PU 學習設定下,一個二分類模型只能根據正訓練樣本和無標記訓練樣本進行學習。一個常用的 PU 學習方法是通過制定 PU loss 來估計負樣本對應的二分類損失:

圖片

其中,圖片表示正樣本與正標簽計算的二分類損失;圖片表示將無標記樣本全部假定為負標簽計算的二分類損失;圖片表示將正樣本假定為負標簽計算的二分類損失;圖片表示的是先驗正樣本概率,即正樣本在全部 PU 樣本中的預估占比。在傳統的 PU 學習中,通常將先驗圖片設置為一個固定的超參數。然而在文本檢測的場景中,檢測器需要處理各式長度不同的文本;而對于不同長度的文本而言,其正樣本在所有和該樣本相同長度的 PU 樣本中的預估占比也是不同的。因此,本研究對 PU Loss 進行了改進,提出了長度敏感的多尺度 PU(MPU)loss 損失函數。

具體地,本研究提出了一個抽象的循環模型對較短文本檢測進行建模。傳統的 NLP 模型在處理序列時,通常是一個馬爾可夫鏈的結構,如 RNN、LSTM 等。此類循環模型的這個過程通常可以理解為一個逐漸迭代的過程,即每個 token 輸出的預測,都是由上一個 token 及之前序列的預測結果和該 token 的預測結果經過變換、融合得到的。即以下過程:

圖片

為了根據這個抽象的模型進行先驗概率的估計,需要假定該模型的輸出為某個句子為正類(Positive)的置信度,即判定為人說出的樣本的概率。假設每個 token 的貢獻大小為句子 token 長度的反比,是非正(Positive)即無標記(Unlabeled)的,且為無標記的概率遠遠大于為正的概率。因為隨著大模型的詞匯量逐漸逼近人類,絕大部分詞匯會同時出現在 AI 和人類語料中。根據這個簡化后的模型和設定好的正 token 概率,通過求出不同輸入情況下模型輸出置信度的總期望,來得到最終的先驗估計。

圖片

通過理論推導和實驗,估計得到先驗概率隨著文本長度的上升而上升,最終逐漸穩定。這種現象也符合預期,因為隨著文本變長,檢測器可以捕捉的信息更多,文本的 「來源不確定性」也逐漸減弱:

圖片

之后,對于每個正樣本,根據其樣本長度得到的獨特先驗對 PU loss 進行計算。最后,由于較短文本僅有部分 “不確定性”(即較短文本也會含有一些人或者 AI 的文本特征),可以對二分類 loss 和 MPU loss 進行加權相加,作為最終的優化目標:

圖片

此外需要注意的是,MPU loss 適配的是長度較為多樣的訓練語料。倘若既有的訓練數據單質化明顯,大部分語料為大段冗長的文本,則無法全面發揮 MPU 方法的功效。為了使得訓練語料的長度更多樣化,本研究還引入了一個在句子層面進行多尺度化的模塊。該模塊隨機遮蓋訓練語料中的部分句子,并對余下句子在保留原有順序的前提下進行重組。經過訓練語料的多尺度化操作,訓練文本得到了長度上的極大豐富,從而充分利用了 PU 學習進行 AI 文本檢測器訓練。

實驗結果

圖片

如上表所示,作者先在較短的 AI 生成語料數據集 Tweep-Fake 上檢驗 MPU loss 的效果。該數據集中的語料均為推特上較為短小的語段。作者又在傳統的語言模型微調基礎上將傳統二分類 loss 替換為含有 MPU loss 的優化目標。改進之后的語言模型檢測器效果較為突出,超過了其它基線算法。

圖片

作者又對 chatGPT 生成文本進行了檢測,經過傳統微調得到的語言模型檢測器在短句上表現較差;經過 MPU 方式在同等條件下訓練得到的檢測器在短句上表現良好,且同時能夠在完整語料上取得可觀的效果提升,F1-score 提升了 1%,超越了 OpenAI 和 DetectGPT 等 SOTA 算法。

圖片

如上表所示,作者在消融實驗中觀察了每個部分帶來的效果增益。MPU loss 加強了長、短語料的分類效果。

圖片

作者還對比了傳統 PU 和 Multiscale PU(MPU)。由上表可見 MPU 效果更勝一籌,能更好地適配 AI 多尺度文本檢測的任務。

總結

作者通過提出基于多尺度 PU 學習的方案,解決了文本檢測器對于短句識別的難題,隨著未來 AIGC 生成模型的泛濫,對于這類內容的檢測將會越來越重要。這項研究在 AI 文本檢測的問題上邁出了堅實的一步,希望未來會有更多類似的研究,把 AIGC 內容進行更好的管控,防止 AI 生成內容的濫用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-01 13:15:41

2023-10-23 12:05:17

2023-06-05 12:32:48

模型論文

2023-11-10 15:36:10

2024-11-04 08:47:00

2024-03-19 11:52:28

2023-05-05 09:32:40

AI論文

2025-10-22 07:59:49

2023-04-07 14:04:51

AI

2023-07-27 13:27:06

2023-03-03 07:34:05

2010-12-28 11:17:50

chkrootkitrootkit檢測器

2023-07-23 19:13:18

AI檢測

2023-02-06 10:12:04

人工智能文本生成工具

2025-01-03 12:00:00

AI檢測模型

2023-10-19 13:12:32

Open-AIAI

2023-09-21 10:31:06

人工智能模型

2022-12-05 15:07:10

2024-08-26 08:16:13

2022-11-21 15:18:05

模型檢測
點贊
收藏

51CTO技術棧公眾號

亚洲精品中文在线观看| 中文字幕亚洲区| 欧美成人午夜剧场免费观看| 欧美成人明星100排名| 九色|91porny| 成人免费高清完整版在线观看| 欧美va在线观看| 91福利视频在线| 亚州av影院| 国产1区2区3区精品美女| 久久精品99| 97人人精品| 88xx成人精品| 先锋欧美三级| 日韩欧美精品三级| 国产一区二区三区福利| 亚洲欧洲国产专区| 日韩网址在线观看| 久久精品国产在热久久| 国产一区福利视频| 日韩欧美高清在线播放| 午夜精品福利在线观看| 日韩成人影音| 亚洲福利视频久久| av网站导航在线观看免费| 欧美小视频在线| 国产美女极品在线| 伊人开心综合网| 91亚洲免费视频| 91麻豆123| 青青草成人免费在线视频| 麻豆久久久久久久| 日本一区二区三区四区高清视频| 红桃视频国产一区| 成人综合电影| 希岛爱理av一区二区三区| 国产激情综合五月久久| 九九亚洲视频| 国产成人鲁鲁免费视频a| 日韩啪啪网站| 欧美最猛性xxxx| 澳门成人av| 555www成人网| 国产精品福利av| 男女av在线| 亚洲视频一区二区免费在线观看| 国产精品视频入口| 麻豆传传媒久久久爱| 日韩欧美一级精品久久| 午夜欧美巨大性欧美巨大| 亚洲男人av电影| 国产大片在线免费观看| 免费一级欧美在线大片| 精品国产自在久精品国产| 亚洲第一中文字幕| 久久电影网站| 日韩视频一区二区在线观看| 国产原创在线观看| 亚洲精品国精品久久99热一| 一个人www视频在线免费观看| 亚洲人成绝费网站色www| 国内自拍亚洲| 韩剧1988在线观看免费完整版 | 欧美aⅴ一区二区三区视频| 日韩av大全| 国产乱码精品一区二区三区av| 日本久久久网站| 国产目拍亚洲精品99久久精品| 男男做性免费视频网| 在线亚洲一区观看| 黄色美女视频在线观看| www.国产区| 国产精品对白交换视频| 三级在线播放| 日韩成人在线观看| 成人97精品毛片免费看| 欧美在线激情网| 天天综合网91| 亚洲最大免费| 欧美国产激情一区二区三区蜜月 | 日韩你懂的在线播放| 欧美性理论片在线观看片免费| 毛片精品免费在线观看| 不卡一区综合视频| 亚洲精品在线视频观看| 国产精品无圣光一区二区| 可以在线观看的av| 亚洲精品在线91| 香蕉视频一区二区三区| 国产在线一区二区三区四区| 国产激情一区二区三区桃花岛亚洲| 日韩欧美国产片| 欧美日韩国产中文| 2019中文亚洲字幕| 国产在线999| 国产v日产∨综合v精品视频| 欧美sm精品调教视频| 日韩精品久久久久久福利| 免费看成人哺乳视频网站| 日韩精品伦理第一区| 中文字幕日韩一区| а√天堂中文在线资源8| 奇米成人av国产一区二区三区| 国自产拍偷拍福利精品免费一| 日韩黄色片在线| 欧美视频一区在线观看| 国产日韩中文在线中文字幕| 国产乱码精品一区二区三区卡| 成人高清视频免费观看| 欧美日本韩国一区二区| 九色精品美女在线| 日韩成人免费电影| 在线免费视频福利| 久久91精品国产| 免费精品视频在线| 一二三四中文在线| 久久香蕉国产线看观看av| 伊人久久成人| 1024手机看片国产| 一区二区三区国产视频| 99日韩精品| 最近2018中文字幕免费在线视频| 在线精品国产欧美| 爽好久久久欧美精品| 欧美色视频免费| 4k岛国日韩精品**专区| 国产suv一区二区三区88区| 久久久久久久影视| 国产精品草莓在线免费观看| 久久免费视频一区| 电影亚洲精品噜噜在线观看| 欧美精品一区在线| 色又黄又爽网站www久久| 欧美日韩大片免费观看| aa在线观看视频| 日韩av在线天堂网| 天堂在线一区二区| 国产粉嫩一区二区三区在线观看 | 国产日韩欧美一区二区三区| 日韩人妻无码精品久久久不卡| 91麻豆精品国产91久久久| 97视频精品| 日本一二三区视频免费高清| 久久久久久久久久久亚洲| 99精品视频在线观看| 欧美美女日韩| 91成人在线视频观看| 91麻豆精品国产自产在线| 亚洲精品国产偷自在线观看| 爽爽免费视频| 国产精品18久久久久久麻辣| 国产精品网曝门| 成人国产精品一区二区网站| 男人日女人逼逼| 久久好看免费视频| 99国产精品久久| 日韩精品一区二区三区中文| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 色噜噜狠狠色综合网图区| 在线亚洲男人天堂| 成人国产精品久久| 日本中文字幕亚洲| 色妞一区二区三区| 成人小视频在线| 999国产精品亚洲77777| 97超碰国产精品| xx视频.9999.com| 久久久久久久久岛国免费| 国产成人高清精品免费5388| 成人拍拍拍免费视频网站| 国产精品wwww| 色综合天天综合网天天狠天天| 欧美午夜免费影院| 日本孕妇大胆孕交无码| 免费看日b视频| 久久久久国产精品免费| 一卡二卡欧美日韩| 亚洲午夜电影| av成人福利| 久久精品99国产| 日韩免费av一区二区| 91国偷自产一区二区开放时间 | 欧美成人午夜激情在线| 亚洲三级视频在线观看| 国产二区精品| 日本在线视频站| 亚洲精品一区二区三区av| 亚洲色无码播放| 国产精品国产精品国产专区不片| 成久久久网站| 污视频在线免费观看网站| 成人黄色av片| 国产精品女主播| 日韩一区二区麻豆国产| 粉嫩aⅴ一区二区三区四区五区| 国产精品自在| 日本激情视频在线观看| 18黄暴禁片在线观看| 国产精品福利观看| 日韩精品专区在线影院重磅|