国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

阿里開源的32B大模型到底強(qiáng)在哪里?

人工智能
很多同學(xué)對(duì)國內(nèi)大語言模型與GPT的差距也比較關(guān)心,我找到了一個(gè)Qwen1.5-72B和GPT-4的能力對(duì)比圖,如下所示,可以看到差距還是很明顯的,在數(shù)學(xué)、編程、復(fù)雜問題處理等方面都有著很大的提升空間。當(dāng)然我們一直在追趕,只是別人也在進(jìn)步,有人說這個(gè)差距是1年,也有人說是2年,你怎么看呢?

阿里巴巴最近開源了一個(gè)320億參數(shù)的大語言模型Qwen1.5-32B,網(wǎng)上都說很強(qiáng)很強(qiáng),那么它到底強(qiáng)在哪里呢?

更高的性價(jià)比

Qwen1.5-32B中的B是billion的意思,也就是10億,32B就代表320億參數(shù)量。

阿里之前還開源過一個(gè)大模型Qwen-1.5-72B,72B就代表720億參數(shù)量。

相比之前開源的Qwen-1.5-72B,Qwen1.5-32B參數(shù)少了一多半,但是測(cè)試表現(xiàn)并沒有相差多少。

大語言模型文件中的主要內(nèi)容就是參數(shù),參數(shù)少了一半,模型的文件大小也會(huì)小一半,那么加載到顯存時(shí)占用的空間也會(huì)小一半。大家可能都知道現(xiàn)在顯卡比較緊俏,我特地到京東查了一下,消費(fèi)級(jí)的3090在8K左右,4090已經(jīng)飆升到了1.5個(gè)W左右。

圖片圖片

顯存占用小一半就可以使用更少數(shù)量的顯卡或者更低顯存的顯卡,這無疑會(huì)節(jié)省很多成本,而且模型的表現(xiàn)相比之前的大塊頭也沒有多少明顯的損失,所以用戶能獲得更高的性價(jià)比。

性能測(cè)試優(yōu)良

上邊提到Qwen1.5-32B的性能測(cè)試表現(xiàn)還不錯(cuò),那么這個(gè)不錯(cuò)到底表現(xiàn)在哪里呢?

這里我找到一張測(cè)試結(jié)果的圖表:

圖片圖片

之前我看這些圖表時(shí)都比較懵逼,主要就看誰的分?jǐn)?shù)高,分高就是好,但是具體好在哪里也說不清楚。

這次我特地去查詢了這些指標(biāo)代表的含義,總算是搞明白了,特別分享給大家。

這些分?jǐn)?shù)對(duì)應(yīng)的每一列都是一個(gè)數(shù)據(jù)集,所謂數(shù)據(jù)集就是一些問題的集合,用它們來考察大模型應(yīng)對(duì)各種問題的處理能力。這些數(shù)據(jù)集通常是知名大語言模型研究機(jī)構(gòu)發(fā)布的,比較權(quán)威。

  • MMLU(Massive Multitask Language Understanding): 多領(lǐng)域知識(shí)理解,考察的是綜合能力。涵蓋57個(gè)不同領(lǐng)域的多項(xiàng)選擇題,包括歷史、文學(xué)、科學(xué)、工程技術(shù)等多個(gè)學(xué)科。使用這個(gè)數(shù)據(jù)集能評(píng)估模型的泛化能力,就是用它解決沒有訓(xùn)練過的問題,或者說新問題,看看它的表現(xiàn)如何。
  • CMMLU: 中文場(chǎng)景的多領(lǐng)域知識(shí)理解。由MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出,包含67個(gè)主題,涉及自然科學(xué)、社會(huì)科學(xué)、工程、人文以及常識(shí)等,專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。
  • C-Eval: 中文能力評(píng)估。由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)的研究人員在2023年5月聯(lián)合推出。包含13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。
  • GSM8K (Google's Standard Math Dataset 8K): 解決數(shù)學(xué)問題的能力。Google開發(fā)的一個(gè)數(shù)學(xué)問題求解數(shù)據(jù)集,包含大約8,000個(gè)高中到大學(xué)水平的數(shù)學(xué)問題。
  • MATH: 解決數(shù)學(xué)問題的能力,類似于GSM8K。包含初等代數(shù),代數(shù),數(shù)論,計(jì)數(shù)和概率,幾何,中等代數(shù)和微積分等領(lǐng)域的多種數(shù)學(xué)問題,用LaTeX格式編寫。
  • MBPP (Mathematics Benchmarks for Pretrained Models): 數(shù)學(xué)推理和問題解決能力。包含一系列需要模型生成數(shù)學(xué)表達(dá)式或文字解答的數(shù)學(xué)問題。
  • HumanEval: 編程能力。由OpenAI創(chuàng)建,專為評(píng)估代碼生成模型的有效性。包含數(shù)百個(gè)編程題目及其解決方案。
  • BBH (Big-Bench Hard): 復(fù)雜語言理解能力。由Google、斯坦福等研究人員開發(fā)的數(shù)據(jù)集,包含大量復(fù)雜語言理解任務(wù)的集合,可能包含需要深度推理、常識(shí)運(yùn)用或復(fù)雜認(rèn)知技能的任務(wù)。

有了對(duì)這幾個(gè)指標(biāo)的理解,我們可以看到Qwen1.5-32B和Qwen1.5-72B的能力相差無幾,在理解復(fù)雜語言的能力上還略勝一籌,不知道是不是學(xué)習(xí)了百度弱智吧的問題。

在這個(gè)對(duì)比圖表上還有幾個(gè)模型,我特別介紹下:

  • Llama2-34B:Llama是Meta公司(也就是facebook)開源的一個(gè)大預(yù)言模型,有了Llama的開源,才有了國內(nèi)大模型的百花齊放,否則大家還得摸索一陣。不過從這張圖表上可以看出,Llama的這個(gè)模型已經(jīng)落后了,普遍落后于其他模型,真是青出于藍(lán)而勝于藍(lán)。
  • Yi-34B:這個(gè)據(jù)稱是自研成功的開源大語言模型,也是在Llama開源后推出的,自然是借鑒了Llama,只不過不清楚借鑒了多少。這個(gè)模型是李開復(fù)老師投資的零一萬物開發(fā)出來的,也是300多億的參數(shù),綜合能力還不錯(cuò),只是數(shù)學(xué)能力和解決復(fù)雜問題的能力比Qwen差一點(diǎn)。
  • Mixtral-8x7B:一款高質(zhì)量的稀疏專家混合模型,是一個(gè)歐洲公司開發(fā)的。這里的混合模型說的是其內(nèi)部有多個(gè)子模型,比如有的擅長數(shù)學(xué),有的擅長法語,有的擅長代碼生成,等等。在生成Token時(shí),Mixtral-8x7B會(huì)選擇兩個(gè)內(nèi)部的專家子模型進(jìn)行生成,每個(gè)專家子模型的參數(shù)是6B,所以它會(huì)比普通的300億參數(shù)處理的更快。從圖表對(duì)比可以看出其在數(shù)學(xué)和編程方面的能力還是挺不錯(cuò)的。

很多同學(xué)對(duì)國內(nèi)大語言模型與GPT的差距也比較關(guān)心,我找到了一個(gè)Qwen1.5-72B和GPT-4的能力對(duì)比圖,如下所示,可以看到差距還是很明顯的,在數(shù)學(xué)、編程、復(fù)雜問題處理等方面都有著很大的提升空間。當(dāng)然我們一直在追趕,只是別人也在進(jìn)步,有人說這個(gè)差距是1年,也有人說是2年,你怎么看呢?

圖片圖片

實(shí)測(cè)體驗(yàn)

指標(biāo)上的表現(xiàn)并不能代表全部,我們用最近熱議的“弱智吧”問題來測(cè)試一下。

“弱智吧”是一個(gè)百度貼吧,里邊充滿荒謬、離奇、不合常理的發(fā)言,研究者發(fā)現(xiàn)使用這里邊的問題訓(xùn)練大語言模型能獲得比較好的邏輯能力。

這里使用的工具是我在AutoDL上分享的一個(gè)鏡像實(shí)例,這個(gè)鏡像基于開源項(xiàng)目 text-generation webui,在這個(gè)webui中可以體驗(yàn)多種大語言模型。

創(chuàng)建實(shí)例

如果你也想實(shí)際測(cè)試一下,可以按照下面的步驟創(chuàng)建一個(gè)容器實(shí)例。

首先注冊(cè)一個(gè)賬號(hào),AutoDL的訪問地址:https://www.autodl.com

創(chuàng)建實(shí)例時(shí):地區(qū)選擇“西北B區(qū)”,網(wǎng)絡(luò)比較穩(wěn)定;因?yàn)殓R像安裝的大模型需要24G顯存,所以顯卡需要選擇3090或者4090;GPU數(shù)量只需要1個(gè)就能跑起來。

圖片圖片

鏡像選擇“社區(qū)鏡像”,輸入 yinghuoai-text-generation-webui ,即可找到這個(gè)鏡像。

圖片圖片

實(shí)例啟動(dòng)后,在服務(wù)器實(shí)例列表中點(diǎn)擊“JupyterLab”,進(jìn)入一個(gè)Web頁面。

圖片圖片

在JupyterLab頁面中打開“啟動(dòng)器”,這個(gè)鏡像會(huì)安裝3個(gè)大模型,默認(rèn)啟動(dòng)的是Qwen-32B,這實(shí)際上是一個(gè)4bit的量化模型,只需要24G的顯存就能跑起來,但是相比原版的32B性能略有下降,不過也夠用了。原版的32B需要數(shù)倍的顯存,AutoDL上跑起來成本太高。

圖片圖片

啟動(dòng)成功后,我們可以看到一個(gè)Gradio的鏈接,點(diǎn)擊就會(huì)在瀏覽器打開 text-generation-webui。

圖片圖片

另外 text-generation-webui 還支持通過API訪問大模型,API定義兼容OpenAI協(xié)議,有興趣的可以體驗(yàn)下。

體驗(yàn)Qwen-32B

進(jìn)入后需要先設(shè)置一下角色,在參數(shù)(Parameters)頁簽中,選擇“AI助理”。這個(gè)AI助理是我創(chuàng)建的,方便進(jìn)行中文對(duì)話。

圖片圖片

在聊天(Chat)頁簽的右側(cè),有一個(gè)“Mode”,定義了大模型處理提示詞的模式,需要選擇“chat-instruct”。

圖片圖片

然后我們就可以和它聊天了,如下是弱智吧的3個(gè)經(jīng)典問題。可以看到,只有“生魚片是死魚片”這個(gè)問題回答的不太好,大模型好像不太能理解生魚片的生到底是什么意思。

圖片圖片

正常應(yīng)該怎么回答呢?我先到阿里的“通義千問”上問了一下,感覺也沒太能回答到點(diǎn)上,畢竟師出同門,訓(xùn)練用的語料應(yīng)該都差不多。

圖片圖片

然后我又找了一個(gè)GPT-4的應(yīng)用問了一下。GPT-4倒是準(zhǔn)確把握住了“生”和“死”的含義,只是它回答的不是那么直接,大家看圖片中的內(nèi)容吧。

圖片圖片

在測(cè)試數(shù)據(jù)集的評(píng)測(cè)中,Qwen1.5-32B的中文處理能力是明顯高于GPT-4的,但是“生魚片是死魚片”這個(gè)問題的確沒有回答好,這是模型的泛化能力不足,還是訓(xùn)練語料的問題呢?對(duì)于這個(gè)問題,你怎么看?

模型下載

Huggingface:

https://huggingface.co/Qwen

Huggingface鏡像站:

https://hf-mirror.com/Qwen

AI快站:

https://aifasthub.com/models/Qwen

責(zé)任編輯:武曉燕 來源: 螢火架構(gòu)
相關(guān)推薦

2024-04-08 08:05:00

大模型人工智能開源

2025-03-25 09:24:05

2025-09-19 11:09:40

2023-11-03 07:47:12

機(jī)器資源大模型:

2025-12-10 17:05:34

2025-03-25 12:11:08

2025-06-18 02:30:00

推理能力強(qiáng)化學(xué)習(xí)大語言模型

2021-12-15 06:58:28

RedisEhCache緩存

2021-10-06 19:02:36

Keil編譯器Armclang

2024-09-20 10:02:12

2017-06-22 16:18:58

IBM光譜存儲(chǔ)軟件定義存儲(chǔ)

2023-09-05 14:43:15

2021-02-26 07:17:47

MySQLMariaDB

2025-10-29 00:00:00

光通信AI人工智能

2025-04-14 09:27:00

2021-07-26 08:12:31

開源API網(wǎng)關(guān)

2025-06-12 08:46:00

2014-01-07 13:54:40

Hadoop日志
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美变态口味重另类| 欧美激情一区二区三区不卡| 日韩av影视在线| 成人在色线视频在线观看免费大全| 国产探花一区| 日韩精品视频在线| 深夜福利在线观看直播| 91在线国产福利| 日韩精品大片| 精品国产一级毛片| 精品久久久91| 97蜜桃久久| 欧美性极品xxxx娇小| 亚洲精品怡红院| 国产精品一区二区三区四区| 国产综合精品一区二区三区| 禁断一区二区三区在线| 欧美激情精品久久久| 日本成人片在线| 欧美videossexotv100| 欧美白人做受xxxx视频| |精品福利一区二区三区| 日韩在线一级片| 国产乱妇无码大片在线观看| 蜜桃成人在线| 欧美黄污视频| 91九色视频导航| 怕怕欧美视频免费大全| 九九久久精品一区| 99精品在免费线偷拍| 亚洲精品自在久久| 91老司机福利在线| 91精品国产日韩91久久久久久| 四虎精品成人影院观看地址| 亚洲福利视频一区| 在线午夜视频| 狠狠躁夜夜躁人人躁婷婷91| 最近中文字幕mv2018在线高清 | 色94色欧美sute亚洲13| 天天爱天天做色综合| 99久久精品久久久久久清纯| 男人天堂a在线| 福利一区福利二区| 中文字幕人妻熟女人妻洋洋| 理论片日本一区| 在线免费观看一区二区三区| 久草在线在线精品观看| 日日噜噜夜夜狠狠久久丁香五月| 麻豆精品视频在线观看免费 | 国产三级精品三级| 日韩精品一区二区三区不卡| 久久精品水蜜桃av综合天堂| 国产情侣av自拍| 国产夜色精品一区二区av| 九色91popny| 亚洲欧美日韩久久| av手机天堂| 亚洲福中文字幕伊人影院| 一二三区在线观看| 亚洲成人免费在线| 午夜在线播放| 亚洲精品456在线播放狼人| a'aaa级片在线观看| 亚洲精品视频久久| 日韩视频一区二区三区四区| 日韩av手机在线观看| 在线中文一区| 精品福利在线观看| 国产美女极品在线| 国产精品素人视频| 国产精品视频一区二区三区四区五区| 曰本一区二区三区视频| 欧美四级电影在线观看| 亚洲free性xxxx护士白浆| 你懂的在线播放| 亚洲三级影院| 这里只有精品丝袜| av香蕉成人| 伊人情人网综合| 懂色av一区二区三区免费看| 国产精品999视频| 最新热久久免费视频| 东热在线免费视频| 亚洲精品国产品国语在线| 亚洲二区av| 91在线看www| 激情成人午夜视频| xx免费视频| 日韩一区二区免费电影| 色综合视频一区二区三区44| 日韩av三级在线观看| 午夜影院日韩| 免费激情视频在线观看| 欧美日韩一区二区三区在线免费观看| 丰满大乳少妇在线观看网站| 久久亚洲综合国产精品99麻豆精品福利 | 国产真人做爰毛片视频直播| 亚洲黄一区二区三区| 国产深夜视频在线观看| 欧美一区第一页| 日韩经典中文字幕一区| 91精品国产综合久久久久久漫画 | 992tv在线| 久久久久国产精品麻豆| 少妇一级淫免费播放| 中文幕一区二区三区久久蜜桃| 青青青在线视频播放| 久久亚洲综合色一区二区三区| aa在线观看视频| 欧美丰满高潮xxxx喷水动漫| av在线免费网址| 日韩一区二区三区av| 亚洲美女自拍视频| 激情小说一区| 日韩三级电影免费观看| 综合自拍亚洲综合图不卡区| 国产高清一区二区三区视频 | 欧美人体视频| 亚洲一卡二卡三卡四卡无卡网站在线看 | 国产精品久久久久一区| 黄色免费在线观看网站| 欧美又大又硬又粗bbbbb| 国产精品99久久久久久久vr| 六十路在线观看| 91超碰中文字幕久久精品| 国产呦精品一区二区三区网站| 中文字幕免费在线观看| 欧美激情一区二区久久久| 激情欧美一区二区| aaa在线免费观看| 国产精品日韩在线观看| 国产日韩欧美激情| 国产激情欧美| 免费看av软件| 欧美乱熟臀69xxxxxx| 成人免费看片39| 色播五月综合网| 不卡av日日日| 成人动漫一区二区在线| 亚洲精品88| 亚洲激情电影在线| 91精品国产综合久久小美女| 欧美精品成人| 青青操视频在线| 国产日韩欧美中文| 亚洲国产日日夜夜| 精品国产91久久久久久浪潮蜜月| 天天爽夜夜爽一区二区三区| 欧美床上激情在线观看| 97精品久久久久中文字幕| 九七电影院97理论片久久tvb| 看一级黄色录像| 亚洲人成网站在线播| 狠狠色综合色综合网络| 美女在线视频免费| 好色先生视频污| 亚洲桃花岛网站| 国产成人在线看| 国产成人免费9x9x人网站视频| 女人床在线观看| 国产亚洲精品一区二区| 99久久精品国产一区| 91精品福利观看| 欧美一级裸体视频| 欧美一级视频在线观看| 亚洲自拍欧美精品| 亚洲区综合中文字幕日日| 久久99久久| 蜜桃91精品入口| 日韩成人激情视频| 成人一道本在线| 免费看一区二区三区| а√最新版在线天堂| 成人免费xxxxx在线观看| 欧美三级蜜桃2在线观看| 久久久蜜桃一区二区人| 亚洲福利影院| 无码人妻h动漫| 奇门遁甲1982国语版免费观看高清 | 欧洲免费在线视频| 国产二区一区| 日韩精品在线一区| 国产精品88888| 国产一区二区三区精品在线观看| 天天干天天操天天做| 国产精品久久久久久网站| 欧美日韩精品欧美日韩精品一综合| 日韩精品一二三四| 国产精品亚洲欧美一级在线 | 婷婷久久伊人| 亚洲天堂免费在线| 国产精品理论在线观看| 久久精品国产亚洲夜色av网站| 黄色片在线播放| 老汉色影院首页| 2019中文字幕全在线观看| 欧洲中文字幕精品| 精品中文字幕一区二区| 一区二区三区四区视频免费观看| 一级片免费在线|