国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

GPT-4通過圖靈測試,勝率高達54%!UCSD新作:人類無法認出GPT-4

人工智能 新聞
GPT-4通過圖靈測試了!UCSD研究團隊通過實證研究,人類無法將GPT-4與人類進行區分。而且,有54%的情況下,它被判定為人類。

GPT-4可以通過圖靈測試嗎?

當一個足以強大的模型誕生之后,人們往往會用圖靈測試去衡量這一LLM的智能程度。

最近,來自UCSD的認知科學系研究人員發現:

在圖靈測試中,人們根本無法區分GPT-4與人類!

圖片

論文地址:https://arxiv.org/pdf/2405.08007

在圖靈測試中,GPT-4有54%的情況下,被判定為人類。

實驗結果更是表明,這是首次有系統在「交互式」雙人圖靈測試中,被實證通過測試。

圖片

研究者Cameron R.Jones招募了500名志愿者,他們被分為5個角色:4個評估員,分別是GPT-4、GPT-3.5、ELIZA和人類,另一個角色就「扮演」人類自己,藏在屏幕另一端,等待著評估員的發現。

以下是節選的游戲,你能看出哪個對話框是人類嗎?

圖 1:人類審訊者(綠色)與證人(灰色)之間的部分對話

其實,這四段對話中,有一段是與人類證人的對話,其余都是與人工智能的對話。

首次開啟受控「圖靈測試」

過去74年里,人們進行了許多圖靈測試的嘗試,但很少進行過受控實驗。

著名的Loebner獎是一項年度競賽,然而從1990年首次舉辦一直到2020年,沒有一個系統通過測試。

圖片

最近的一項大規模研究發現,人類在2分鐘的在線對話中,識別一系列LLM準確率達到 60%。

迄今為止,還沒有任何機器通過測試的「受控」實驗演示。

為了測試人們是否有可能識破當前AI系統的欺騙行為,研究人員使用GPT-4進行了一次隨機控制的雙人圖靈測試。

測試要求很簡單,即人類參與者與人類、人工智能開啟5分鐘對話,并判斷對話者是否是人類。

正如開篇所述,研究人員一共測評了3個模型——GPT-4、GPT-3.5,以及ELIZA。

圖片

針對前兩個LLM, 研究者通過改編GPT-4和GPT-3.5探索性研究中表現最佳的提示,來指示大模型如何去響應消息。

研究人員稱,解釋圖靈測試的一個核心挑戰是,系統表現出色可能源于兩種原因:

- 一是出色地模仿人類

- 二是評判者過于輕信

后一種情況,常被稱為ELIZA效應,即參與者甚至會將簡單的系統也人性化。

ELIZA系統對于每個人來說,再熟悉不過了。

它是20世紀60年代的一款基于規則的簡單聊天機器人,但用戶發現自己也會將人類特征歸因于它。

因此,在實驗中,研究人員將ELIZA作為基線,一方面是為了從經驗上量化ELIZA效應,另一方面也是為了在實驗中進行操作檢查。

那么,這項圖靈測試的結果,具體如何呢?

GPT-4通過率54%

首先看一個重要的指標:通過率。

研究者將通過率定義為在游戲中,評估對象被評估者判定為人類的比例。

GPT-4的通過率為54%,超過了GPT-3.5(50%)和ELIZA基線(22%),但低于人類被試者(67%)。

圖片

評估對象通過率(左)和評估者信任度(右)。右圖每個點代表一場游戲

這個結果其實并不令人意外,與研究初始階段的設想基本相符合。

在試驗之前,研究者就做出了幾個假設:首先,假設人類在檢測GPT-4方面的能力不會超過偶然性(50%)。

為了驗證這一點,研究者擬合了一個邏輯回歸模型來預測只有截距的通過率。

截距與0(z=0.14, p=0.482)沒有明顯差距,這表明GPT-4的通過率可以約等于50%。貝葉斯模型預測GPT-4截距的95%可信區間為-0.24-0.55(相當于44%-63%的通過率)。

這意味著,人類在面對GPT-4時,成功分辨的概率跟拋硬幣差不多!

結果還證實了研究人員的第二和第三個假設:人類的通過率明顯高于GPT-4的通過率(z=2.42,p=0.017),而GPT-4的通過率高于ELIZA的通過率(z=4.11,p<0.001)。

然而,與研究者的試驗設想不一致的是:GPT-4和GPT-3.5的表現幾乎差不多(z=0.497,p=0.619)。

在「偽裝人類」這一塊,打了個平手。

同樣出人意料的是,那些自稱更了解LLM工作原理的參與者并沒有更成功地識別出LLM(z = -0.023,p = 0.869)。

在探索性分析中,研究者發現年齡對詢問者的準確性有負面影響(z = -2.24,p = 0.025),但其他人口統計學變量(包括性別、教育水平和與聊天機器人互動的頻率)則沒有顯著影響。

圖片

為什么會是這樣的結果?讓我們來分析一下背后的原因。

為了深入了解到底是什么在影響評估者的決策,我們對評估者使用的策略和他們為決策提供的理由進行了分類。

36%的評估者會與評估對象閑聊,詢問一些個人細節或日常活動。

第二類和第三類最常用的策略是社交與情感(25%)——例如,詢問評估對象的觀點和經歷,觀察他們是否具備幽默感。

還有人側重考察知識與推理(13%),包括有關數學、邏輯和常識的問題。

圖片

詢問策略(左)和平均準確率(右)

為了對比每種策略的有效性,研究者計算了使用這些策略的平均準確率。

當評估對象問及對方有關人類經歷(75%)、邏輯和數學(78%)或直接「指控」對方是人工智能(80%)時,通常會距離「正確答案」更近。

在游戲中,人工智能之所以會「露出馬腳」,通常是因為評估者認為他們似乎在強迫自己扮演角色,要么過于隨意,要么則缺乏個性。

而ELIZA 很容易「暴露」,主要是因為反應不自然和缺乏語境意識。

可以看出,無論是從參與游戲的志愿者所使用的策略還是決策理由來看,他們都更注重語言風格和社會情感因素,而不是更傳統的智力范疇(知識和推理)。

這似乎反映出志愿者們的一個潛在假設——社會智能才是AI最無法模仿的人類特征。

圖靈測試,過了

如何判斷系統何時通過了圖靈測試?

圖靈在1950年的論文中預測,到本世紀末, AI系統將能夠很好地玩模仿游戲,以至于審查員在5分鐘的交流后,做出正確識別的機會不會超過70%。

這一結論,導致了AI的通過率是否能夠達到30%,成為許多研究者的討論目標。

然而,這個基準似乎是任意的,并且不清楚圖靈是否將其作為成功的定義。

其實,50%的基線更加合理,因為它更能證明人類審查者,在識別AI方面并不比偶然性更強。

這一定義,與發現用戶是否可以在在線互動中,可靠地識別其他人類這一目標尤為相關。

在研究者的預公開的分析中,通過使用ELIZA基線作為操作檢查來解決這個問題。

只有當分析表明ELIZA的通過率低于概率,而GPT-4的通過率不低于概率的情況下,才能判定模型通過了測試。

而根據這一定義,GPT-4顯然通過了這一版本的圖靈測試。

此外,參與者的置信度得分和決策依據,都表明他們并非隨意猜測:GPT-4是人類的平均置信度為73%(見圖 2)。

網友討論

有網友表示,如果我們要將圖靈測試等同于智力,圖靈測試就不是一個好的測試。然而,AI幾乎始終可以「欺騙」人類的事實有點令人擔憂。

圖片

還有人稱,自己對這種測試表示懷疑。因為GPT-4的表現會超過大多數人,所以很容易區分誰是人類,誰是人工智能。

圖片

研究者對此表示,這確實是我們遇到的一個問題。比如,GPT-4的知識儲備「太豐富」或者掌握的語言太多。我們明確提示該模型避免這種情況,這在一定程度上是有效的。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-11-02 12:10:00

AI訓練

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-12-04 09:13:00

GPT-4測試

2024-09-09 13:06:37

GPT-4圖靈測試語言模型

2025-05-30 07:40:56

2023-08-17 13:30:28

AI測試

2023-11-15 09:23:00

模型AI

2024-07-22 09:01:20

2024-05-21 12:23:17

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-03-16 19:17:57

2023-05-03 20:53:48

2023-08-15 10:33:06

微軟必應人工智能

2023-03-28 13:01:20

GPT-4開發OpenAI

2023-03-28 08:23:38

2024-06-11 00:04:00

GPT-4PNASLLM

2023-11-24 09:00:00

2023-07-25 09:23:23

Llama 2GPT-4

2023-05-05 09:42:12

點贊
收藏

51CTO技術棧公眾號

一区二区三区视频国产日韩| 黄页视频在线91| 久久久成人av| 好久没做在线观看| 欧美r级电影在线观看| 中文字幕伦理免费在线视频| 欧美日韩aaa| caopeng在线| 欧美成人三级电影在线| 美女精品导航| 日韩精品免费一线在线观看| 性国裸体高清亚洲| 在线观看日韩av| 日韩色性视频| 欧美激情一级二级| 一本久久青青| 成人h片在线播放免费网站| 99久久九九| 国产一区二区在线观看免费播放| 日韩天堂av| 一区不卡视频| 99re8在线精品视频免费播放| 成人黄色片视频| 一区二区在线免费观看| 欧美zozo| 精品国偷自产国产一区| 欧美日韩五码| 亚洲3p在线观看| 婷婷综合久久| 色女孩综合网| 丁香一区二区三区| 久久久国产欧美| 午夜精品视频在线观看| 色欧美激情视频在线| 亚洲欧美另类中文字幕| 粉嫩的18在线观看极品精品| 91精品久久久久久久久久| 国产日韩专区| 成人精品视频在线播放| 亚洲精品视频在线观看网站| 在线免费看黄| 久久精品国产96久久久香蕉| 精品大片一区二区| 欧美日韩综合精品| 91亚洲精品久久久蜜桃| 天堂av在线7| 日韩av影视综合网| 女仆av观看一区| 美女被啪啪一区二区| 成人小视频免费在线观看| 理论片鲁丝二区爱情网| 日韩精品中文字幕一区二区三区 | 日本欧美精品在线| 好吊一区二区三区| 欧美黄色免费网址| 亚洲国产精品视频| 小早川怜子影音先锋在线观看| 51精品国产黑色丝袜高跟鞋| 亚洲欧美日韩在线观看a三区 | 国产一区二区影院| 写真片福利在线播放| 亚洲精品在线三区| 日韩精品丝袜美腿| 日韩欧美精品久久| 亚洲女与黑人做爰| 日本乱码一区二区三区不卡| 国产精品国产三级国产aⅴ9色| 日日噜噜夜夜狠狠视频欧美人| 国产免费999| 日韩欧美国产三级电影视频| 欧美做受69| 无码人妻精品一区二区蜜桃百度| 欧美日韩亚洲91| 亚洲一区导航| 日韩欧美精品久久| 亚洲aaa精品| 国产成人免费视频网站视频社区| 国产在线一区二| 洋洋av久久久久久久一区| 黑人巨大精品| 国产欧美日韩综合精品二区| 136国产福利精品导航| 中文不卡1区2区3区| 国产精品久久亚洲7777| 亚洲视频在线观看三级| 99久久精品一区二区成人| 麻豆亚洲一区| 一本久久综合亚洲鲁鲁五月天| 91精品丝袜国产高跟在线| 大桥未久一区二区| 在线成人午夜影院| 欧美亚洲精品在线| 99热手机在线| 伊人久久精品视频| 日韩极品在线观看| 成人高清网站| 91亚洲精品久久久| 国产精品福利一区二区三区| 日韩中文视频| 一区中文字幕在线观看| 欧美一卡2卡3卡4卡| 欧美日韩国产亚洲一区| 免费av在线播放| 久久经典综合| 欧美精品在线一区二区三区| 亚洲视频一二区| 丝袜国产在线| 精品久久久久久久久久中文字幕| 伦伦影院午夜日韩欧美限制| 性久久久久久| 国产xxxxx视频| 91福利资源站| 欧美多人爱爱视频网站| 视频直播国产精品| 精品欧美一区二区久久| 97se亚洲国产综合在线| 国产精品试看| 欧美一区二区麻豆红桃视频| 一区二区三区| 成人午夜一级| 好吊的妞视频这里都有| 国产一区亚洲二区三区| 美臀av在线| 欧美r片在线| 日韩激情电影免费看| 黄色大片在线| free性护士videos欧美| 一区二区三区四区视频免费观看| 免费看av成人| heyzo在线欧美播放| www.91精品| 中文字幕一区二区三区欧美日韩 | 羞羞在线观看网站| 深夜福利91大全| 成人激情免费电影网址| 成人在线视频www| 五月婷婷狠狠操| 国内精品中文字幕| 亚洲成人av电影| 国产精品av久久久久久麻豆网| 尤物视频在线免费观看| 一区二区三区四区视频在线| 在线观看欧美日韩| 中文字幕中文在线不卡住| 欧美好骚综合网| 在线中文字幕-区二区三区四区| 做爰高潮hd色即是空| 在线一区二区日韩| 欧美国产97人人爽人人喊| 久久裸体网站| 色黄网站在线观看| 欧美牲交a欧美牲交| 国产精品黄色影片导航在线观看| 欧洲精品视频在线观看| 久久精品久久久精品美女| 国产精品久久久久久久久免费高清| 少妇一级淫免费放| 国产66精品久久久久999小说| 亚洲精品在线不卡| 国产精品美女久久久久久 | 成人黄色小视频在线观看| 东京久久高清| 视频午夜在线| 最新黄色av网站| 7777免费精品视频| 7777精品伊人久久久大香线蕉经典版下载 | 国产午夜精品美女毛片视频| 精品999日本久久久影院| 小明精品国产一区二区三区| 亚洲欧美日韩国产成人综合一二三区| 久久全国免费视频| 99re精彩视频| 91亚洲人电影| 亚洲国产毛片完整版| 久久综合给合久久狠狠狠97色69| 国产伦精品一区二区三区视频| 国产激情在线| 久久精品网站视频| 国产精品国产三级国产专区53| 亚洲视屏在线播放| 日韩欧美在线免费观看| 成人免费福利片| 综合在线视频| 日韩欧美中文在线观看| 超鹏97在线| 免费一级淫片| 国产一区 在线播放| 91在线视频免费| 日韩在线观看免费全| 色乱码一区二区三区88| 久久综合久久综合九色| 亚洲精品影视| 六月丁香久久丫| 国产网站在线| 男人天堂资源在线| 日本免费一级视频| 欧美日韩高清在线一区| 国产精品老女人精品视频| 久久精品久久精品亚洲人| 日韩欧美一区二区久久婷婷|