国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

AI檢測器又活了?成功率高達98%,吊打OpenAI

人工智能 新聞
OpenAI都搞不定的問題,被堪薩斯大學的一個研究團隊解決了?他們開發的學術AI內容檢測器,準確率高達98%。如果將這個技術再學術圈廣泛推廣,AI論文泛濫的可能得到有效緩解。

現在AI文本檢測器,幾乎沒有辦法有效地區分AI生成的文字和人類的文字。

就連OpenAI開發的檢測工具,也因為檢測準確率太低,在上線半年后悄悄下線了。

但是最近,Nature報導了堪薩斯大學的一個團隊的研究成果,他們開發的學術AI檢測系統,能有效分辨論文中是否含有AI生成的內容,準確率高達98%!

文章地址:https://www.nature.com/articles/d41586-023-03479-4

研究團隊的核心思路是,不追求制作一個通用的檢測器,而只是針對某個具體領域的學術論文,來構建一個真正有用的AI文字檢測器。

論文地址:https://www.sciencedirect.com/science/article/pii/S2666386423005015?via%3Dihub

研究人員表示,通過針對特定類型的寫作文本定制檢測軟件,可能是通向開發出通用AI檢測器的一個技術路徑。

「如果可以快速、輕松地為某個特定領域構建檢測系統,那么為不同的領域構建這樣的系統就不那么困難了。」

研究人員提取了論文寫作風格的20個關鍵特征,然后將這些特征數據輸入XGBoost模型進行訓練,從而就能區分人類文本和AI文本。

而這二十個關鍵特征,包括句子長度的變化、某些單詞和標點符號的使用頻率等等要素。

研究人員表示「只需使用一小部分特征就能獲得很高的準確率」。

正確率高達98%

而在他們最新的研究中,檢測器是在美國化學學會(ACS)出版的十種化學期刊論文的引言部分進行了訓練。

研究小組之所以選擇「引言(Introduction)」部分,是因為如果ChatGPT能夠獲取背景文獻,那么論文的這一部分就相當容易撰寫。

研究人員用100篇已發表的引言作為人類撰寫的文本對工具進行了訓練,然后要求ChatGPT-3.5以ACS期刊的風格撰寫200篇引言。

對于GPT-3.5撰寫的200篇引言,其中的100篇,提供給了GPT-3.5論文標題來要求撰寫,而對于另外100篇,則提供了論文摘要作為寫作的依據。

最后,讓檢測器對同一期刊上由人類撰寫的引言和由人工智能生成的引言進行測試時。

檢測器識別出ChatGPT-3.5基于標題撰寫的引言部分的準確率為 100%。對于基于摘要撰寫的ChatGPT生成的引言,準確率略低,為 98%。

該工具對GPT-4撰寫的文本也同樣有效。

相比之下,通用AI檢測器ZeroGPT識別AI撰寫的引言的準確率只有35-65%左右,準確率取決于所使用的ChatGPT版本以及引言是根據論文標題還是摘要生成的。

由OpenAI制作的文本分類器工具(論文發表之時,OpenAI已經把這個檢測器下架了)也表現不佳,它能識別AI撰寫的引言的準確率只有10-55%。

這個新的ChatGPT檢測器甚至在處理未經過訓練的期刊時也有很出色的表現。

它還能識別出專門為了迷惑AI檢測器的提示生成的AI文本。

不過,雖然這個檢測系統對于科學期刊論文來說性能非常好,當被用來檢測大學報紙上的新聞文章時,識別效果就不太理想了。

柏林應用科學大學(HTW Berlin University of Applied Sciences)研究學術剽竊的計算機科學家Debora Weber-Wulff給予了這個研究非常高度的評價,他認為研究人員正在做的事情 「非常吸引人」。

論文細節

研究人員采用的方法依賴于20個關鍵特征和XGBoost算法。

提取的 20 個特征包括 :

(1) 每段落的句子數、(2) 每段落的單詞數、(3) 是否存在括號、(4) 是否存在破折號、(5) 是否存在分號或冒號,(6)是否存在問號,(7)是否存在撇號,(8)句子長度的標準偏差,(9)段落中連續句子的(平均)長度差異,(10 ) 存在少于 11 個單詞的句子,(11) 存在超過 34 個單詞的句子,(12) 存在數字,(13) 文本中存在兩倍以上的大寫字母(與句點相比)段落,并且存在以下詞語:(14)雖然,(15)但是,(16)但是,(17)因為,(18)這個,(19)其他人或研究人員,(20)等。

具體通過XGBoost訓練檢測器的詳細過程可以參見論文原文中的Experimental Procedure部分。

作者在之前做過一篇類似的工作,但原始工作的范圍非常有限。

為了將這種有前途的方法應用于化學期刊,需要根據該領域多個期刊的各種手稿進行審查。

此外,檢測AI文本的能力受到提供給語言模型的提示的影響,因此任何旨在檢測AI寫作的方法都應該針對可能混淆AI使用的提示進行測試,之前的研究中沒有評估這個變量。

最后,新版的ChatGPT即GPT-4已經推出,它比GPT-3.5有顯著改進。AI文本檢測器需要對來自GPT-4等新版本的語言模型的文本有效。

為了擴大了AI檢測器的適用范圍,這里的數據收集來自13個不同期刊和3個不同出版商、不同的AI提示以及不同的AI文本生成模型。

使用真實人類的文本和AI生成的文本訓練XGBoost分類器。然后通過真人寫作、 AI提示以及GPT-3.5和GPT-4等方式來生成新的范例用于評估模型。

結果表明,本文提出的這種簡單的方法非常有效。它在識別AI生成的文本方面的準確率為98%–100%,具體取決于提示和模型。相比之下,OpenAI最新的分類器的準確率在10% 到56% 之間。

本文的檢測器將使科學界能夠評估ChatGPT對化學期刊的滲透,確定其使用的后果,并在出現問題時迅速引入緩解策略。

結果與討論

文章作者從美國化學學會(ACS)的10種化學期刊中選取了人類寫作樣本。

包括《無機化學》、《分析化學》、《物理化學雜志A》、《有機化學雜志》、《ACS Omega》、《化學教育雜志》、《ACS Nano》、《環境科學與技術》、《毒理學化學研究》和《ACS化學生物學》。

使用每個期刊中10篇文章的引言部分,訓練集中總共有100個人類寫作樣本。選擇介紹部分是因為在適當的提示下,這是最有可能由ChatGPT撰寫的文章的部分。

每個期刊僅使用10篇文章是一個異常小的數據集,但作者認為這并不是一個問題,恰恰相反,假設可以使用如此小的訓練集開發有效的模型,則可以使用最小的計算能力快速部署該方法。

而之前類似的模型使用了1000萬份文檔進行模型訓練。

提示設計是這些研究中的一個關鍵方面。對于每個人類編寫的文本,AI比較器都會使用兩種不同的提示生成,這兩種提示都旨在要求ChatGPT像化學家一樣寫作。

提示1是:「請以ACS期刊的風格為標題為xxx的文章寫一篇300到400字的簡介」。

提示2是:「請以ACS期刊的風格為帶有此摘要的文章寫一篇300到400字的簡介」。

正如預期的那樣,ChatGPT將摘要中的許多關鍵事實和詞匯納入了本集中的介紹中。

整個訓練數據集包含100個人工生成的介紹和200個ChatGPT生成的介紹;每個段落都成為一個「寫作示例」。

從每個段落中提取了20個特征的列表,這些特征涉及段落的復雜性、句子長度的變化、各種標點符號的使用以及在人類科學家或ChatGPT著作中可能更頻繁出現的「流行詞」。

該模型使用留一法交叉驗證策略(leave-one-out cross-validation strategy)進行優化。

上表顯示了這些寫作樣本分類的訓練結果,包括完整文檔級別和段落級別。

最容易正確分類的文本類別是在提示1(標題)之下由ChatGPT生成的介紹。

該模型在單個段落級別的準確率是99%,在文檔級別的準確率是100%。

而在提示2(摘要)作用下的ChatGPT文本的分類精度略低。

人類生成的文本更難正確分配,但準確性仍然相當不錯。作為一個群體,人類的寫作風格比ChatGPT更加多樣化,這可能導致使用這種方法正確分類其寫作樣本的難度增大。

實驗的下一階段是使用訓練中未使用的新文檔來測試模型。

作者設計了簡單測試和困難測試。

簡單測試使用的測試數據與訓練數據性質相同(選取同一期刊的不同文章),使用新選擇的文章標題和摘要來提示ChatGPT。

而在困難測試中,使用GPT-4代替GPT-3.5來生成AI文本,由于已知GPT-4比GPT-3.5更好,那么分類精度是否會下降呢?

上面的表格顯示了分類的結果。與之前的結果相比,性能幾乎沒有下降。

在完整文檔級別,人工生成文本的分類準確率達到94%,提示2的AI生成文本準確率為98% , 提示1的AI文本分類正確率達到100%。

訓練集和測試集對于段落級別的分類精度也非常相似。

底部的數據顯示了使用GPT-3.5文本特征訓練的模型對GPT-4文本進行分類時的結果。所有類別的分類準確性都沒有下降,這是一個非常好的結果,證明了方法在GPT-3.5和GPT-4上的有效性。

雖然這種方法的整體準確性值得稱贊,但最好通過將其與現有的人工智能文本檢測器進行比較來判斷其價值。這里使用相同的測試集數據測試了兩種效果領先的檢測工具。

第一個工具是ChatGPT的制造商OpenAI提供的文本分類器。OpenAI承認該分類器并不完美,但仍然是他們最好的公開產品。

第二個檢測工具是ZeroGPT。其制造商聲稱檢測人工智能文本的準確率達到98%,并且該工具接受了1000萬份文檔的訓練。在目前的許多評估中,它是性能最好的分類器之一。而且,ZeroGPT制造者表示他們的方法對GPT-3.5和GPT-4都有效。

上圖顯示了本文的工具和上述兩個產品在完整文檔級別的性能比較。

三個檢測器在人類文本的識別上都有著相似的高精度;然而,在評估AI生成的文本時,三個工具存在顯著差異。

在使用提示1的情況下,本文的工具對GPT-3.5和GPT-4都有100% 的準確率,但ZeroGPT對于GPT-3.5文本的失敗率為32%,對于GPT-4文本的失敗率為42%。OpenAI產品的表現更差,在GPT-4文本上的失敗率接近70%。

在使用更難的提示2生成的AI文本時,后兩種方法的分類正確率進一步下降。

相比之下,本文的檢測器在該組測試的100個文檔中只犯了1個錯誤。

那么,該方法能否準確檢測不屬于訓練集的期刊中的ChatGPT寫作,以及如果使用不同的提示,該方法仍然有效嗎?

作者從三個期刊中選出了150篇新文章的介紹:Cell Reports Physical Science,Cell Press期刊;Nature Chemistry,來自自然出版集團;以及Journal of the American Chemical Society,這是一份未包含在訓練集中的ACS期刊。

此外,還收集了由大學生于2022年秋季撰寫并發表在10種不同大學報紙上的一組100篇報紙文章。由于本文的檢測器是專門針對科學寫作而優化的,因此可以預計新聞報道不會被高精度地分類。

從圖中可以看到,應用相同的模型,并使用ACS期刊的文本對這組新示例進行訓練后,正確分類率為92%–98%。這與訓練集中得到的結果類似。

也正如預期的那樣,大學生撰寫的報紙文章沒有被正確歸類為人類生成的文章。

事實上,當使用本文描述的特征和模型進行評估時,幾乎所有文章都比人類科學文章更類似于人工智能生成的文本。

但是本方法旨在處理科學出版物上的檢測問題,并不適合將其擴展到其他領域。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-06-09 14:44:18

AI 數據人工智能

2023-02-01 13:37:59

ChatGPTAI

2025-07-29 00:15:00

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2019-05-09 19:00:40

量子加密加密技術安全

2023-06-02 13:19:15

模型AI

2024-01-03 17:39:23

云計算混合云

2010-11-18 10:59:00

求職

2023-07-27 13:27:06

2013-01-22 17:39:57

360瀏覽器搶票專版

2021-01-20 18:13:52

VRAR守門員

2020-02-27 15:37:03

手機App竊聽移動應用

2023-08-21 13:30:18

預測機器學習

2025-02-12 10:05:00

AILLM訓練

2025-11-04 08:43:00

2010-12-28 11:17:50

chkrootkitrootkit檢測器

2023-02-01 13:15:41

2021-04-21 15:22:40

機器人人工智能系統

2024-04-22 08:25:00

2014-08-29 10:05:02

點贊
收藏

51CTO技術棧公眾號

日韩精品久久久久久福利| 日本午夜大片a在线观看| 精品国模一区二区三区| 亚洲人成电影网站色mp4| 国产91精品入口17c| 精品中文字幕一区二区三区四区| 色网综合在线观看| 亚洲成人福利在线| av成人网在线| 日本片在线观看| 夜夜嗨av一区二区三区网页 | 男女视频网站在线观看| 色97色成人| 夜夜嗨av一区二区三区免费区| 青青国产在线| 国产精品久久久久影视| 欧美日韩在线一| 国产在线国偷精品免费看| 亚洲综合中文字幕在线| 一本久久青青| 欧美在线视频播放| 亚洲精品三区| 久久精品视频在线观看| 国产成人精品一区二区三区在线| 日韩欧美一级二级| 黄网页免费在线观看| 欧美日韩一级黄| 爱啪视频在线观看视频免费| 亚洲国产日日夜夜| 神马久久影视大全| 国产精品高潮呻吟久久| 天天干天天爽天天射| 欧美经典三级视频一区二区三区| 色综合av综合无码综合网站| 国产午夜精品福利| 成年人在线播放| 欧美三级视频在线| 直接在线观看的三级网址| 欧美一级高清片| 精品日韩视频| 欧美性做爰毛片| 天天色综合色| 亚欧精品在线| 久久免费午夜影院| 欧美午夜视频| 91精品一区二区| 日韩av成人高清| 久久婷婷国产91天堂综合精品| 亚洲日本丝袜连裤袜办公室| 极品美乳网红视频免费在线观看| 欧美成人精品福利| 99国精产品一二二线| av资源在线| 国产99久久精品一区二区 夜夜躁日日躁 | 国产欧美一区二区三区精品观看| 亚洲伦理久久| 国产精品果冻传媒潘| 91免费小视频| av观看在线| 国产精品美女久久久久久免费| 高清成人免费视频| av在线理伦电影| 久久精彩视频| 欧美久久久久久久久| 婷婷久久综合| 日本黄在线观看| 欧美日韩日本国产| 午夜av电影| 国语自产偷拍精品视频偷| 一区二区高清| 日本高清在线观看wwwww色| 国产精品 欧美在线| 中文字幕一区视频| 久久不卡日韩美女| 国产91在线亚洲| 亚洲精品成人免费| 免费观看成人av| 亚洲xxxxxx| eeuss一区二区三区| 一本久久a久久免费精品不卡| 色综合www| 九色丨porny丨自拍入口| 97视频免费在线观看| 91国产免费观看| 国产精品视频二区三区| 久久精品国产久精国产一老狼 | 最新成人av网站| 在线成人福利| 国产精品一区二区性色av| 亚洲欧洲色图综合| 日韩精品免费视频一区二区三区| 中文字幕乱码一区二区三区| 欧美人妇做爰xxxⅹ性高电影 | 成人禁用看黄a在线| 欧美a一级片| 色偷偷亚洲第一成人综合网址| 日本精品视频在线| 毛片av一区二区| 日本不卡免费高清视频在线| 9191国产视频| 日韩av免费在线看| 在线观看亚洲一区| 国产ts人妖一区二区| 欧美三级电影在线| 丁香婷婷激情| 91在线视频导航| 国产亚洲一区二区在线| 亚洲成人免费视频| 国产在线不卡视频| 欧美激情偷拍自拍| 日韩天堂在线| 久久这里精品| 隔壁人妻偷人bd中字| 亚洲va男人天堂| 久久激情五月丁香伊人| 欧美日韩美少妇| 综合久久国产九一剧情麻豆| 日韩影院精彩在线| 欧美日韩一区二区综合| 欧美xxx黑人xxx水蜜桃| 很黄很污的网站| 国产又爽又黄ai换脸| 91pron在线| 国产精品91久久久久久| 自拍亚洲一区欧美另类| 欧美人xxxx| 一本久道中文字幕精品亚洲嫩 | 免费一级电影| 精品999久久久| 国产精品资源站在线| 欧美成人亚洲| 露出调教综合另类| 欧美黄页免费| 国模私拍一区二区国模曼安| 麻豆传媒在线免费| 亚洲精品视频99| 调教视频vk| 香蕉视频在线观看免费| 日本久久久久久久久久久久| 日韩欧美在线播放视频| 阿v天堂2018| 欧美 另类 交| 自慰无码一区二区三区| 国产成人精品一区二区三区福利| 日韩美女免费视频| 国产精品一区二区久久精品| 国产精品亚洲激情| 精品午夜一区二区| 精品久久久三级| 久久99精品久久久久久久久久 | 日本在线视频一区二区| 国产成人精选| 欧美1区2区3区4区| 九九久久婷婷| 亚洲午夜精品久久久久久app| 亚洲性色视频| 成人av中文字幕| 亚洲一区二区在线免费观看视频| 欧美影院一区二区三区| 日韩电影在线观看中文字幕| 欧美人在线观看| 91精品在线观| 97色在线观看免费视频| 国产精品天美传媒沈樵| 国产亚洲人成网站| 色综合天天做天天爱| 亚洲激情在线观看| 国产成人综合精品| 91色在线观看| 蜜桃麻豆www久久国产精品| 日韩精品福利视频| 日本国产在线播放| 好男人社区在线视频| 波多野结衣av在线播放| 欧美69xxx| 电影在线观看一区二区| 福利欧美精品在线| 欧美一区激情| 视频一区二区不卡| 国产a久久麻豆| 五月婷婷激情综合网| 精品视频www| 97久久精品人人澡人人爽缅北| 国产精品福利片| 亚洲精品成人久久久998| 久热精品在线播放| 美女日批视频在线观看| 日韩高清一级| 国产精品一区在线观看你懂的| 国产精品久久久久久久午夜片 | 日韩av片永久免费网站| 伊人久久青草| 成人免费视频| 婷婷综合电影| 成人午夜精品一区二区三区| 香蕉影视欧美成人| 久久久久一本一区二区青青蜜月 | 亚洲图区一区| 亚洲美女黄网| 欧美美女激情18p|