国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

離開OpenAI待業的Karpathy做了個大模型新項目,Star量一日破千

人工智能 新聞
過去幾天,OpenAI 非常熱鬧,先有 AI 大牛 Andrej Karpathy 官宣離職,后有視頻生成模型 Sora 撼動 AI 圈。

閑不下來的 Andrej Karpathy 又有了新項目!

過去幾天,OpenAI 非常熱鬧,先有 AI 大牛 Andrej Karpathy 官宣離職,后有視頻生成模型 Sora 撼動 AI 圈。

在宣布離開 OpenAI 之后,Karpathy 發推表示「這周可以歇一歇了。」

圖片

圖源:https://twitter.com/karpathy/status/1757986972512239665

這種無事要做的狀態讓馬斯克都羨慕(I am envious)了。

圖片

但是,如果你真的認為 Karpathy 會閑下來,那就有點「too young, too navie」了。

這不,有眼尖的網友發現了 Karpathy 的新項目 ——minbpe,致力于為 LLM 分詞中常用的 BPE(Byte Pair Encoding, 字節對編碼)算法創建最少、干凈以及教育性的代碼

僅僅一天的時間,該項目的 GitHub 標星已經達到了 1.2 k。

圖源:https://twitter.com/ZainHasan6/status/1758727767204495367

有人 P 了一張圖,表示 Karpathy 為大家「烹制了一頓大餐」。

圖片

圖源:https://twitter.com/andrewcyu/status/1758897928385561069

更有人歡呼,Karpathy is back。

圖源:https://twitter.com/fouriergalois/status/1758775281391677477

我們來看一看「minbpe」項目具體講了些什么。

項目介紹

圖片

GitHub 地址:https://github.com/karpathy/minbpe

我們知道,BPE 算法是「字節級」的,在 UTF-8 編碼的字符串上運行。該算法通過 GPT-2 論文和 GPT-2 相關的代碼在大語言模型(LLM)中得到推廣。

現如今,所有現代的 LLM(比如 GPT、Llama、Mistral)都使用 BPE 算法來訓練它們的分詞器(tokenizer)。

Karpathy 的 minbpe 項目存儲庫中提供了兩個 Tokenizer,它們都可以執行分詞器的 3 個主要功能:1)訓練 tokenizer 詞匯并合并給指定文本,2)從文本編碼到 token,3)從 token 解碼到文本。

詳細的存儲庫文件分別如下:

  • minbpe/base.py:實現 Tokenizer 類,是基類。它包含了訓練、編碼和解碼存根、保存 / 加載功能,還有一些常見的實用功能。不過,該類不應直接使用,而是要繼承。
  • minbpe/basic.py:實現 BasicTokenizer,這是直接在文本上運行的 BPE 算法的最簡單實現。
  • minbpe/regex.py:實現 RegexTokenizer,它通過正則表達式模式進一步拆分輸入文本。作為一個預處理階段,它在分詞之前按類別(例如字母、數字、標點符號)拆分輸入文本。這確保不會發生跨類別邊界的合并。它是在 GPT-2 論文中引入的,并繼續在 GPT-4 中使用。
  • minbpe/gpt4.py:實現 GPT4Tokenizer。此類是 RegexTokenizer 的輕量級封裝,它精確地復現了 tiktoken(OpenAI 開源分詞神器)庫中 GPT-4 的分詞。封裝處理有關恢復 tokenizer 中精確合并的一些細節,并處理一些 1 字節的 token 排列。需要注意,奇偶校驗尚未完全完成,沒有處理特殊的 token。

腳本 train.py 在輸入文本 tests/taylorswift.txt 上訓練兩個主要的 tokenizer,并將詞匯保存到磁盤以進行可視化。Karpathy 稱,該腳本在他的 MacBook (M1) 上運行大約需要 25 秒。

Karpathy 還表示,所有文件都非常短且注釋詳盡,并包含使用示例。如下為 BPE 維基百科文章的復現例子。

from minbpe import BasicTokenizer
tokenizer = BasicTokenizer()text = "aaabdaaabac"
tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges
print(tokenizer.encode(text))# [258, 100, 258, 97, 99]
print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabac
tokenizer.save("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)

此外還提供了如何實現 GPT4Tokenizer,以及它與 tiktoken 的比較。

text = "hello123!!!? (?????!) ??"
# tiktoken
import tiktoken
enc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]
# ours
from minbpe import GPT4Tokenizer
tokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

當然,Karpathy 不滿足只推出 GitHub 項目,他表示視頻很快就會發布。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-23 15:48:02

AI開源GitHub

2023-11-05 10:01:37

AI模型

2024-02-19 13:45:14

OpenAIGPT-2模型

2020-08-18 14:48:00

AI 數據人工智能

2019-11-26 14:47:59

機器學習人工智能計算機

2023-03-02 14:00:03

AI繪畫

2021-04-12 21:19:01

PythonMakefile項目

2023-11-24 14:05:00

AI訓練

2024-08-27 22:08:13

2024-10-16 21:47:15

2024-09-05 12:11:25

大模型抓取列表頁

2025-04-27 07:57:50

大模型工具JSON

2021-04-27 22:15:02

Selenium瀏覽器爬蟲

2021-09-14 21:29:01

項目環境變量

2023-04-25 11:31:33

智能AI

2024-07-08 08:15:00

2020-11-11 18:25:21

GitHub代碼 jQuery

2025-12-01 08:45:33

2024-12-27 00:44:44

MarkdownPrompt大模型

2021-04-05 14:47:55

Python多線程事件監控
點贊
收藏

51CTO技術棧公眾號

亚洲一区成人| 欧美精品三级在线观看| 欧美综合77777色婷婷| 精品国产第一国产综合精品| 永久免费av在线| 国产精品无人区| 男人插女人视频在线观看| 久久中文字幕一区二区三区| 色哟哟一区二区| 天海翼一区二区三区免费| 亚洲精品承认| 中文字幕电影一区| 男人天堂999| 国产一区二区三区视频在线播放| 蜜桃导航-精品导航| 黄色的网站在线观看| 亚洲国产精品欧美一二99| 国产特级嫩嫩嫩bbb| 中文字幕中文字幕在线一区 | 亚洲图片欧美视频| 欧美艹逼视频| 午夜天堂影视香蕉久久| 亚洲美女欧洲| 欧美色视频日本高清在线观看| 在线免费观看h| 一本色道久久综合亚洲aⅴ蜜桃| 神马精品久久| 台湾佬综合网| 5278欧美一区二区三区| 天堂99x99es久久精品免费| 欧美中文字幕第一页| 久久av国产紧身裤| 国产精品亚洲аv天堂网| 99视频精品全国免费| 国产经典一区二区三区| 久久亚洲精品伦理| 中文字幕在线中文| 国产偷v国产偷v亚洲高清| 老司机很黄的视频免费| 色综合一个色综合| 黄污视频在线观看| 欧美极品少妇xxxxⅹ高跟鞋| 99热这里只有精品在线播放| 中文字幕一区二区三区视频| 在线免费中文字幕| 欧美日本在线一区| 成人黄色在线| 国产精品成熟老女人| 亚洲区一区二| 男人日女人逼逼| 欧美三区视频| 国产精品有限公司| 国产精品一区二区x88av| www.99在线| 欧美日韩国产精品一区| 亚洲丝袜精品| 久久久综合免费视频| 欧美精品18| 真人抽搐一进一出视频| 亚洲色图制服诱惑| 日韩激情av| 欧美日韩电影在线观看| 欧美色图国产精品| 一本一本久久a久久精品综合妖精| 91视视频在线观看入口直接观看www| 16—17女人毛片毛片| 日本丶国产丶欧美色综合| 樱花草涩涩www在线播放| 热re99久久精品国产66热| 男女精品视频| 天堂社区在线视频| 欧美一区二区啪啪| 香蕉久久夜色精品国产使用方法 | 在线精品亚洲一区二区不卡| 欧美a级在线观看| 青青a在线精品免费观看| 麻豆精品网站| 美女在线视频一区二区| 国产一区二区中文字幕| 啦啦啦在线视频免费观看高清中文 | 97热精品视频官网| 亚洲一区观看| 成人蜜桃视频网站网址| 91 com成人网| 第四色在线一区二区| 色播五月综合| 亚洲成av人片在线| 99久久伊人| 任我爽在线视频精品一| 亚洲特黄一级片| 小明成人免费视频一区| 国产精品一区二区a| 国产精品女主播av| 伊人久久综合一区二区| 91精品视频免费观看| 国产拍欧美日韩视频二区| 中国av在线播放| 国产精品久久久久久久久借妻| 国产成人免费视频网站高清观看视频 | 最近的2019中文字幕免费一页| 999国产精品999久久久久久| www在线观看免费| 日韩美女一区二区三区四区| 国产亚洲第一伦理第一区| 久久综合九色综合88i| 精品国产乱码久久久久久影片| 香蕉视频官网在线观看日本一区二区| 免费一级特黄毛片| 日韩不卡中文字幕| 日本亚洲最大的色成网站www| 你懂的在线观看视频网站| 午夜精品一区二区三区av| 国产在线精品国自产拍免费| 91xxx在线观看| 69堂成人精品视频免费| 最新高清无码专区| av不卡一区二区| 免费看毛片的网址| 在线亚洲男人天堂| 国产毛片精品视频| 在线免费av资源| 亚洲精品一区二区三区樱花| 欧美在线观看一区二区| 国产精品精品国产一区二区| caoporen人人| 538国产精品一区二区免费视频 | 日本高清xxxx| 日韩电影中文字幕在线| 日韩成人dvd| 毛片在线视频观看| 亚洲激情视频网| 久久99久久精品| 97久久人人超碰caoprom| 久久久久久久久一区| 欧美丝袜丝交足nylons| 欧美三级不卡| 看黄网站在线| 色狠狠久久av五月综合| 亚洲国产精品va在看黑人| 久热成人在线视频| 日韩电影免费观| 波多野结衣之无限发射| 久久久久999| 久久久激情视频| 国产亚洲成av人片在线观黄桃| 天天操天天爽天天射| 欧美激情中文网| 亚洲三级久久久| 国产精品久久久久久久久久10秀 | 中文字幕一区二区不卡| 激情小说一区| 日本全棵写真视频在线观看| 国产精品偷伦一区二区| 在线一区二区视频| 久久久国产精品一区二区中文| 密臀av在线播放| 国产综合免费视频| 国产精品mp4| 91.麻豆视频| 国产999精品久久| 在线看片黄色| 国产精品吴梦梦| 色94色欧美sute亚洲线路一久| 极品尤物久久久av免费看| 99热国产在线| 香蕉视频在线网址| 久久综合伊人77777蜜臀| 最新国产の精品合集bt伙计| 亚洲情侣在线| 久久精品香蕉视频| 2019亚洲日韩新视频| 欧美日韩免费在线观看| 午夜在线视频观看日韩17c| 粉嫩一区二区三区| 成年人黄色电影| 国产一区二区三区四区hd| 亚洲国产精品va在线看黑人| 91丝袜美腿高跟国产极品老师| 香蕉久久99| 午夜小视频福利在线观看| 噜噜噜久久亚洲精品国产品麻豆| 欧美一级免费视频| 欧美一区二区三区播放老司机| 国产高清在线精品| 欧美亚洲在线日韩| 美女露胸视频在线观看| av电影免费| 亚洲人体一区| 欧美一区二区三区艳史| 日韩欧美一卡二卡| 日本一区二区高清| 欧美精品91| 国内精品视频| 91精品大全| 99re热在线观看| 亚洲精品不卡| 国产精品久久久久久亚洲调教 | 国产福利一区二区三区| 精品日韩欧美一区| 成人激情视屏|