国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

為什么AI數(shù)不清Strawberry里有幾個 r?Karpathy:我用表情包給你解釋一下

人工智能 新聞
讓模型知道自己擅長什么、不擅長什么是一個很重要的問題。

還記得這些天大模型被揪出來的低級錯誤嗎?

不知道 9.11 和 9.9 哪個大,數(shù)不清 Strawberry 單詞里面有多少個 r…… 每每被發(fā)現(xiàn)一個弱點,大模型都只能接受人們的無情嘲笑。

圖片

嘲笑之后,大家也冷靜了下來,開始思考:低級錯誤背后的本質(zhì)是什么?

大家普遍認為,是 Token 化(Tokenization)的鍋。

在國內(nèi),Tokenization 經(jīng)常被翻譯成「分詞」。這個翻譯有一定的誤導(dǎo)性,因為 Tokenization 里的 token 指的未必是詞,也可以是標(biāo)點符號、數(shù)字或者某個單詞的一部分。比如,在 OpenAI 提供的一個工具中,我們可以看到,Strawberry 這個單詞就被分為了 Str-aw-berry 三個 token。在這種情況下,你讓 AI 大模型數(shù)單詞里有幾個 r,屬實是為難它。

除了草莓 (Strawberry) 之外,還有一個很好的例子就是「Schoolbooks」這個詞,AI 模型會把它分為 school 和 books 兩個 token。

圖片

圖片

這個問題也吸引了剛剛投身 AI + 教育行業(yè)的 Karpathy 的注意。為了讓大家直觀地看到大模型眼里的文字世界,他特地寫了一個小程序,用表情符號(emoji)來表示 token。

圖片

按照小程序被設(shè)計的表示方法,「How many letters 'r' in the word'strawberry'?」在 LLM 看來是這樣的:

圖片

一段文本在 LLM 看來會是這樣:

圖片

但這種解釋也引起了另一種疑問:如果你讓大模型把 Strawberry 這個詞的每個字母都列出來,然后刪掉 r 以外的字母,大模型就能數(shù)對了,那大模型為什么自己不這么做呢?它好像不太會利用自己的能力。

圖片

圖片

對此,Karpathy 給出的回復(fù)是「因為沒有人教它這么做」。

圖片

其實,如果你在 Prompt 里加上「think step by step」等思維鏈相關(guān)「咒語」,大模型是可以分步驟解決問題的,而且很有可能數(shù)對「r」的數(shù)量。那它之前不假思索就給出答案,是不是因為過度自信?   

圖片

對此,有人猜測說,大模型公司給 LLM 的設(shè)定可能就是讓它在一個問題上花費盡可能少的時間,因此,除非你明確要求,不然它不會主動去深入思考。

圖片

對于這種說法,我們也測試了一下。結(jié)果發(fā)現(xiàn),如果明確要求深入思考,模型確實立馬就會數(shù)了:   

圖片

這就類似于它有兩套系統(tǒng):快速、依靠直覺的系統(tǒng) 1 和較慢、較具計劃性且更仰賴邏輯的系統(tǒng) 2,平時默認使用系統(tǒng) 1。

圖片

當(dāng)然,這些只是猜測。

綜合最近的新聞來看,我們會發(fā)現(xiàn)一個有意思的現(xiàn)象:一方面,大模型都能在人類奧數(shù)中拿銀牌了;而另一方面,它們又在數(shù)數(shù)、比大小方面集體翻車。類似的例子還有不會玩幾歲小孩都會玩的井字棋,不會判斷兩個圓是否重疊等。

圖片

Karpathy 給這種現(xiàn)象取了個名字 ——Jagged Intelligence(Jagged 的意思是參差不齊的)。這種參差不齊的智能表現(xiàn)和人類是不一樣的,人類的知識體系和解決問題的能力在成長過程中是高度相關(guān)的,并且是同步線性發(fā)展的,而不是在某些領(lǐng)域突然大幅度提升,而在其他領(lǐng)域卻停滯不前。

Karpathy 認為,這一問題的核心在于目前的大模型缺乏「認知自我知識(cognitive self-knowledge)」( 模型自身對其知識和能力的自我認知 )。如果模型具備這種能力,它可能會在面對「數(shù)字母」這樣的問題時回答說,「我不太擅長數(shù)字母,讓我使用代碼解釋器來解決這個問題」。

圖片

這一問題的解決方案可能包括但不限于擴大規(guī)模,可能需要在整個技術(shù)棧的各個方面都做一些工作,比如在后訓(xùn)練階段采用更復(fù)雜的方法。

對此,Karpathy 推薦閱讀 Llama 3 論文的 4.3.6 章節(jié)。在此章節(jié)中,Meta 的研究者提出了一些方法來讓模型「只回答它知道的問題」。

圖片

該章節(jié)寫到:


我們遵循的原則是,后訓(xùn)練應(yīng)使模型「知道它知道什么」,而不是增加知識。我們的主要方法是生成數(shù)據(jù),使模型生成與預(yù)訓(xùn)練數(shù)據(jù)中的事實數(shù)據(jù)子集保持一致。為此,我們開發(fā)了一種知識探測技術(shù),利用 Llama 3 的 in-context 能力。數(shù)據(jù)生成過程包括以下步驟:


1、從預(yù)訓(xùn)練數(shù)據(jù)中提取數(shù)據(jù)片段。

2、通過提示 Llama 3 生成一個關(guān)于這些片段(上下文)的事實問題。

3、采樣 Llama 3 關(guān)于該問題的回答。

4、以原始上下文為參照,以 Llama 3 為裁判,評估生成的回答的正確性。 

5、以 Llama 3 為裁判,評估生成回答的信息量。

6、對于 Llama 3 模型在多個生成過程中提供的信息雖多但內(nèi)容不正確的回答,使用 Llama 3 生成拒絕回答的內(nèi)容。 


我們使用知識探測生成的數(shù)據(jù)來鼓勵模型只回答它知道的問題,而拒絕回答它不確定的問題。此外,預(yù)訓(xùn)練數(shù)據(jù)并不總是與事實一致或正確。因此,我們還收集了一組有限的標(biāo)注事實性數(shù)據(jù),這些數(shù)據(jù)涉及與事實相矛盾或不正確的陳述。


最后,Karpathy 表示,這種參差不齊的智能問題值得注意,尤其是在生產(chǎn)環(huán)境中。我們應(yīng)該致力于讓模型只完成他們擅長的任務(wù),不擅長的任務(wù)由人類及時接手。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-07-25 12:11:22

2020-07-06 08:00:26

MySQL程序員SQL

2011-01-18 13:45:58

2024-08-07 10:05:00

LLM大模型技術(shù)

2021-08-28 09:06:11

Dubbo架構(gòu)服務(wù)

2025-02-28 09:14:09

JavaNIO機制

2020-02-28 09:09:51

閉包函數(shù)作用域

2025-06-25 10:17:48

2021-08-02 07:59:21

單調(diào)棧題目

2021-08-02 07:59:47

技術(shù)動圖數(shù)列

2020-08-13 08:43:24

TCP固定窗口滑動窗口

2021-01-18 05:19:11

數(shù)字指紋

2019-08-20 15:01:05

Chrome 瀏覽器 插件

2019-08-16 10:33:00

Chrome插件開發(fā)者

2025-03-31 09:20:00

AI模型測試

2023-05-22 10:09:21

FlexboxCSS3

2015-08-04 09:24:50

2021-09-09 08:47:57

TCP三次握手協(xié)議

2021-10-25 08:49:32

索引數(shù)據(jù)庫MySQL
點贊
收藏

51CTO技術(shù)棧公眾號

欧美国产日韩一区二区三区| 美丽的姑娘在线观看免费动漫| 玖玖在线精品| 99精品国产高清在线观看| 亚洲国产国产亚洲一二三| 蜜桃av色综合| 国产91精品精华液一区二区三区 | 日本999视频| 欧美国产1区2区| 一级日本免费的| 欧美日韩一区成人| 成人性生交大片免费观看网站| 三级精品视频久久久久| 日韩欧美四区| 性色一区二区三区| 福利网在线观看| 久久久久久日产精品| 91香蕉视频在线下载| 日韩大片欧美大片| 精品国产欧美成人夜夜嗨| 蜜桃一区二区| 欧美一区二区三区精美影视 | 激情六月丁香| 欧美一区在线视频| 亚洲国产aⅴ精品一区二区| 91久久中文字幕| 国产成都精品91一区二区三| 特黄aaaaaaaaa毛片免费视频| 538prom精品视频线放| 高清国产一区二区三区四区五区| 国产原创欧美精品| 国产精品一区二区三区网站| 成视频在线观看免费观看| 91.麻豆视频| 香蕉成人app| 精品视频免费观看| 国产精品短视频| sm在线播放| 成人www视频在线观看| 国产一区二区三区不卡在线观看 | 成人影院天天5g天天爽无毒影院 | 91亚洲精品一区二区乱码| 日本中文字幕电影在线观看| 国产亚洲精品久久| 狠狠综合久久| 国产女女做受ⅹxx高潮| 欧美二区乱c少妇| 亚洲人成网www| 久久久久久www| 欧美日韩高清不卡| 国产成人久久| 日韩avxxx| 精品国产区一区| 围产精品久久久久久久| 农村妇女精品一二区| 欧美一三区三区四区免费在线看| 国产精品chinese在线观看| 一本久道久久综合狠狠爱亚洲精品| 一区二区三区精品久久久| 欧亚一区二区| 午夜精品一区二区三区四区 | 五月激情六月综合| 爱情电影网av一区二区| 欧美一区免费视频| 色综合咪咪久久| 欧美**vk| 污污网站免费观看| 久久成人这里只有精品| 国产麻豆视频一区| wwww在线观看免费视频| 国产综合第一页| 偷拍亚洲欧洲综合| 精品国产中文字幕第一页| 97久久精品在线| 国产成人精品三级| 黄网站在线观| 亚洲精品videossex少妇| 亚洲精品国产首次亮相| www.亚洲高清| 久久伊人精品一区二区三区| 欧美专区一区| 特大黑人娇小亚洲女mp4| 欧美日韩国产高清一区二区| 希岛爱理av一区二区三区| 亚洲综合婷婷久久| 欧美极品在线视频| 久久综合狠狠综合| 欧美videos粗暴| 日本天堂免费a| 国产日韩欧美精品一区| 日韩电影大全网站| 中文字幕一区二区三区四区五区人| 欧美色精品在线视频| 影音先锋成人在线电影| 亚洲最大黄色| 成人av影视在线| 欧美性一级生活| 99精品国产在热久久下载| 国产中文字幕在线观看| 91在线免费看网站| 日本韩国精品在线| 日韩视频久久| 国产在线拍揄自揄拍视频 | 免费成人在线网站| 无遮挡爽大片在线观看视频| 亚洲欧美影院| 亚洲天堂开心观看| 91在线视频18| 国产精品毛片视频| 99视频资源网| 国产一区二区香蕉| 欧美日韩三级一区| 奇米色777欧美一区二区| 高清在线视频不卡| 人妻夜夜添夜夜无码av| 欧美激情精品久久久久久黑人| 18成人在线观看| 综合久久综合| 啦啦啦中文在线观看日本| 国产一级大片免费看| 精品国产依人香蕉在线精品| 国产欧美视频一区二区三区| 国产剧情在线观看一区| 国产大学生校花援交在线播放 | 秋霞午夜鲁丝一区二区老狼| 日韩av中字| 99re热视频在线| 欧美精选在线播放| 日韩极品在线观看| 久久99国产精品二区高清软件| 无遮挡又爽又刺激的视频| 国产成人综合亚洲| 欧美疯狂做受xxxx富婆| 国产一区二区精品久久91| 亚洲精品一二三**| 日韩精品系列| 久久av秘一区二区三区| 欧美精品手机在线| 精品久久久久久亚洲精品| 天堂午夜影视日韩欧美一区二区| 性感美女一区二区在线观看| 午夜久久久精品| 国产精品久久一区二区三区| 日韩精品有码在线观看| 国产亚洲精品久| 久久久久国产精品| xxxxxx欧美| 91欧洲在线视精品在亚洲| 欧洲精品一区色| 欧美高清不卡在线| 日本高清不卡在线观看| 韩国女主播成人在线| 亚洲都市激情| 国语对白在线刺激| 99re99| 色一情一乱一伦一区二区三欧美 | 欧美不卡一区二区三区四区| 久久亚洲精精品中文字幕早川悠里| 激情五月综合网| 国内激情视频在线观看| gogo高清免费视频| 亚洲一区二区三区免费看| 欧美综合在线第二页| 日韩三级电影网址| 亚洲欧美日韩系列| 黄色精品一二区| 999久久久国产精品| 电影一区电影二区| av资源网在线观看| 少妇网站在线观看| 亚洲一区二区三区涩| 国产精品视频自拍| 日韩在线观看网站| 欧美午夜精品一区| 亚洲日穴在线视频| 国产高清精品久久久久| 欧美精品播放| 激情av综合| 日韩经典一区| 在线观看免费网站黄| 1024亚洲| 欧美日韩成人免费视频| 久久久影院一区二区三区 | 在线观看av影片| 国产成人黄色片| 亚洲精品中字| y111111国产精品久久婷婷| 欧美极品少妇xxxxⅹ免费视频| 亚洲а∨天堂久久精品9966 | 欧美人与性禽动交精品| 国产久卡久卡久卡久卡视频精品| 丝袜久久网站| 香蕉视频亚洲一级| 日韩免费电影在线观看| av资源在线| 岛国在线视频免费看| 久久mv成人精品亚洲动漫| 99精品人妻少妇一区二区| 亚洲国产午夜伦理片大全在线观看网站 | 国产suv精品一区二区6|