国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大神Karpathy強推,分詞領域必讀:自動釣魚讓大模型“發瘋”的token,來自Transformer作者創業公司

人工智能
因為大詞匯表意味著更稀疏的token分布和更細粒度的token切分,這必然會導致更多低頻token和無意義的token殘片,增加“訓練不足”token的比例。同時,大詞匯表也給模型訓練帶來了更大的優化難度。

關于大模型分詞(tokenization),大神Karpathy剛剛推薦了一篇必讀新論文。

主題是:自動檢測大模型中那些會導致“故障”的token。

圖片圖片

簡單來說,由于大模型tokenizer的創建和模型訓練是分開的,可能導致某些token在訓練中很少、甚至完全沒出現過。這些“訓練不足”(under-trained)的token會導致模型產生異常輸出。

最經典的例子,就是SolidGoldMagikarp——

這個單詞一度讓ChatGPT“胡言亂語”。只要prompt里包含這個詞,ChatGPT就開始文不對題,生成一些混亂的輸出:

圖片圖片

現在,來自Cohere的研究人員針對這個問題,提出檢測“故障”token的有效方法,他們還發現:在多個主流開源大語言模型上,包括Llama系列、Mistral系列在內,訓練不足的token都在不同程度上普遍存在。

p.s. Cohere是Transformer最年輕作者Aidan Gomez創辦的公司,此前推出了Command R系列開源大模型。去年6月,該公司估值達到了22億美元。

自動檢測LLM中訓練不足的token

研究人員提出的方法主要包括三個步驟。

首先,通過檢查tokenizer詞匯表并觀察其編碼/解碼行為,來分析tokenizer,找出其中特殊類別的token,比如不完整的UTF-8序列等。

然后,根據模型架構計算識別指標,找出嵌入向量異常的token,列入“訓練不足”候選名單。

舉個例子,對于tied embedding模型,利用一組已知的未使用的embedding,通過主成分分析去除unembedding矩陣中的常數成分。

接著計算其余token和這些未使用embedding的余弦距離,作為“訓練不足”指標。

而對于non-tied embedding的模型,可以直接采用embedding向量的L2范數來檢測。

圖片圖片

最后,通過特定prompt來進行驗證,看看候選token們是否確實超出了訓練數據的分布,會引發異常輸出。

圖片

將該方法應用于多個主流的開源大語言模型后,研究人員發現,訓練不足能讓大模型“發瘋”的token在這些大模型上普遍存在,他們一口氣就挖出了數千個。

圖片圖片

常見類型包括:

  • 單字節token,尤其是UTF-8標準中未使用的字節,如0xF5-0xFF;
  • 字節對編碼(Byte-Pair Encoding,BPE)過程中,出現的一些未充分訓練的中間token。
  • 一些特殊字符,如<pad>、<unk>等。

圖片圖片

研究人員還發現,詞匯表較大的模型,“訓練不足”token的數量也會明顯增多。

因為大詞匯表意味著更稀疏的token分布和更細粒度的token切分,這必然會導致更多低頻token和無意義的token殘片,增加“訓練不足”token的比例。同時,大詞匯表也給模型訓練帶來了更大的優化難度。

值得注意的是,論文提到,基于相同tokenizer的模型表現相似,而不同的tokenizer實現、配置、訓練數據,會導致不同模型間“訓練不足”token的明顯差異。

論文認為,優化詞匯表結構和tokenizer算法,是解決token訓練不足問題的關鍵。

他們也提出了一些建議:

  • 確保tokenizer訓練數據、模型訓練數據和模型推理中輸入數據的預處理完全相同。
  • 確保模型訓練數據和tokenizer對齊,尤其是在從頭訓練新的基礎模型時。
  • 對于單字節token,要么詞匯表包含所有256個字符且不允許重復,要么排除13個UTF-8中不出現的字符(0xC0/0xC1,0xF5-0xFF)。
  • 訓練tokenizer后,通過對詞匯表進行編碼和解碼來檢查無法訪問的token,以確保正確處理手動添加的token。
  • 在Hugging Face上發表tokenizer的“快速”和“慢速”版本時,確保它們輸出相同。
  • 訓練基礎模型時,在小型測試中檢查訓練不足的token,重新考慮分詞方法和數據。在不同語料庫上運行測試,也可以發現導致主訓練數據中“故障”輸入的預處理錯誤。

論文地址:https://arxiv.org/abs/2405.05417


責任編輯:武曉燕 來源: 量子位
相關推薦

2024-03-12 13:22:00

訓練數據

2024-03-25 12:39:00

AI數據

2024-03-25 13:06:00

數據訓練

2024-08-16 16:13:00

2010-04-19 16:14:00

2025-03-31 00:33:00

2025-04-22 15:34:08

視頻生成AI

2023-10-06 20:30:33

大模型LLMtoken

2024-08-26 08:00:00

模型AI

2025-01-16 08:30:00

LLMAI訓練

2025-06-25 08:54:03

模型訓練AI

2022-05-11 12:56:36

大廠谷歌OpenAI

2012-04-09 21:28:09

移動支付

2023-03-07 18:37:20

ChatGPTAI

2024-10-24 13:40:00

AI大模型

2024-10-22 17:24:32

2025-08-07 12:08:06

2023-11-26 17:53:00

算法模型

2018-10-17 18:46:53

數字銀行創業公司用戶

2023-07-12 14:36:57

AI谷歌
點贊
收藏

51CTO技術棧公眾號

加勒比色综合久久久久久久久| 欧美日韩中国免费专区在线看| 黑森林福利视频导航| 91丨九色丨黑人外教| www.com操| 色av综合在线| 粉嫩一区二区三区| 日本成人黄色片| 午夜一区不卡| 97xxxxx| 在线精品视频免费观看| 另类激情视频| 成人中文字幕+乱码+中文字幕| 美女视频黄a大片欧美| 奇米影视四色在线| 欧美日韩激情在线| 视频欧美一区| 免费试看一区| 亚洲欧洲色图综合| 欧美hdxxxx| 日韩av色综合| 久久99国内精品| 97色伦图片97色伦在线电影| 日韩激情视频在线播放| 欧美日韩激情| 加勒比成人在线| 日本黄xxxxxxxxx100| 亚洲天堂网中文字| cao在线视频| 国产精品一二区| 国产久卡久卡久卡久卡视频精品| 亚洲精品少妇久久久久久| 亚洲人成五月天| 影视一区二区| 超碰av在线免费观看| 日韩欧美国产一区在线观看| 精品72久久久久中文字幕| 成人免费看片'免费看| 欧美日本精品一区二区三区| 国产一区在线电影| 欧美少妇在线观看| 在线不卡免费欧美| 日韩.com| 一本色道久久亚洲综合精品蜜桃| 日韩成人激情视频| 日韩一级网站| 在线观看免费观看在线91| 久久好看免费视频| 蜜臀av一区二区| 撸视在线观看免费视频| 91高潮在线观看| 99精品欧美一区二区三区小说| 黄网站在线播放| 91免费的视频在线播放| 亚洲丝袜另类动漫二区| 国产95亚洲| 日韩精品视频在线观看视频| 精品国产不卡一区二区三区| 国产精品啊啊啊| 香蕉视频在线网站| 国产97人人超碰caoprom| 久久久99精品久久| 四虎影视国产精品| 国产天堂视频在线观看| 亚洲精品国产综合区久久久久久久| 伊人成年综合电影网| 一不卡在线视频| 国产精品久久久久久中文字| 最新成人av在线| 丝袜美腿综合| 亚洲欧美日韩一级| 久久久久久久久久国产精品| 久久日韩粉嫩一区二区三区 | 亚洲一区二区在线观看视频| 国产成人免费视频网站视频社区| 91精品国产吴梦梦| 国产精品igao视频网网址不卡日韩| 国产精品一区二区3区| 亚洲欧美一区二区不卡| 欧美一区 二区| 色总=综合色| 69精品小视频| 最近日韩中文字幕| 宅男在线一区| 快色在线观看| 国产精品电影网站| 欧美日韩国产激情| 51精产品一区一区三区| 国产毛片在线看| 久久精品五月婷婷| 精品国产伦一区二区三区观看方式 | 亚洲视频小说| 亚洲成人久久久久| 六月婷婷色综合| 欧美成人精品一区二区男人小说| 日韩第一页在线观看| 国产婷婷色综合av蜜臀av| 国产精品一区在线观看乱码 | 国产一区一区| 日韩欧美在线免费观看视频| 久久91亚洲精品中文字幕奶水| 久久久久久久久99精品| 9l视频自拍蝌蚪9l视频成人| 蜜桃一级网站.| 91久久精品一区二区别| 91麻豆精品国产综合久久久久久| 羞羞视频在线观看欧美| 蜜桃av在线| 男人用嘴添女人下身免费视频| 久久99国产精品久久久久久久久| 国产精品超碰97尤物18| 日韩免费高清| 97色伦亚洲国产| 麻豆精品一区二区综合av| 人人鲁人人莫人人爱精品| 激情五月开心婷婷| 国产精品日日做人人爱| 欧美人牲a欧美精品| 精品一区二区三区视频在线观看| 欧美啪啪网站| 免费黄视频网站| 九九99久久| 中文字幕日韩在线视频| 一区二区三区中文字幕精品精品| 亚洲高清久久| 国产成人免费| 最色在线观看| 在线无限看免费粉色视频| 久久久女人电视剧免费播放下载| 韩曰欧美视频免费观看| 久久国内精品自在自线400部| 亚洲狼人综合| 视频一区二区在线播放| 一区二区三区观看| 欧美精品国产精品日韩精品| 色婷婷激情综合| 国产福利视频一区二区三区| 三级精品视频| 日韩经典av| 免费白浆视频| 欧美 日韩 国产 在线观看| 2019中文字幕在线免费观看| 欧美高清精品3d| 欧美国产综合色视频| 99亚洲一区二区| 免费观看性欧美大片无片| 国产精品99999| 欧美 日韩 国产一区| 99国产超薄丝袜足j在线观看| 亚洲天堂男人的天堂| 午夜精品福利一区二区蜜股av| 国产尤物一区二区| 999视频精品| 亚洲人成777| 大地资源网3页在线观看| 成人女性文胸| 国产卡一卡二在线| 91免费的视频在线播放| 亚洲国产视频a| 国产精品18毛片一区二区| 九色视频在线播放| av女同在线| 精品一区二区三区亚洲| 日韩和欧美一区二区三区| 一区二区三区精品| 亚洲日韩欧美视频| 久久国产一区二区| 福利视频在线导航| 国产乱码精品一区二三赶尸艳谈| 国产999精品在线观看| 欧美色爱综合| 亚洲视频一二| 红桃成人av在线播放| 真人做人试看60分钟免费| 热re99久久精品国产66热| 欧美精品一区视频| 午夜影院在线观看欧美| 91在线精品一区二区| 午夜在线精品偷拍| 精品久久成人| 国产精品xnxxcom| 91老司机福利在线| 国产中文字幕在线看| 九七影院理论片| 男女超爽视频免费播放| 日韩高清在线播放| 鬼打鬼之黄金道士1992林正英| 91黑丝在线观看| 日韩视频免费在线观看| 日韩欧美在线综合网| 免费观看一二区视频网站| 国产成人澳门| 国产亚洲欧美日韩俺去了| 国产一区二区日韩| 亚洲最新在线| 久久一区二区三区电影| 91在线观看免费网站| 国产综合激情| 欧美xxxx做受欧美护士| 日本韩国视频一区二区|