阿里開源的32B大模型到底強(qiáng)在哪里？

作者：螢火架構(gòu) 2024-04-10 08:15:17

很多同學(xué)對(duì)國內(nèi)大語言模型與GPT的差距也比較關(guān)心，我找到了一個(gè)Qwen1.5-72B和GPT-4的能力對(duì)比圖，如下所示，可以看到差距還是很明顯的，在數(shù)學(xué)、編程、復(fù)雜問題處理等方面都有著很大的提升空間。當(dāng)然我們一直在追趕，只是別人也在進(jìn)步，有人說這個(gè)差距是1年，也有人說是2年，你怎么看呢？

阿里巴巴最近開源了一個(gè)320億參數(shù)的大語言模型Qwen1.5-32B，網(wǎng)上都說很強(qiáng)很強(qiáng)，那么它到底強(qiáng)在哪里呢？

更高的性價(jià)比

Qwen1.5-32B中的B是billion的意思，也就是10億，32B就代表320億參數(shù)量。

阿里之前還開源過一個(gè)大模型Qwen-1.5-72B，72B就代表720億參數(shù)量。

相比之前開源的Qwen-1.5-72B，Qwen1.5-32B參數(shù)少了一多半，但是測(cè)試表現(xiàn)并沒有相差多少。

大語言模型文件中的主要內(nèi)容就是參數(shù)，參數(shù)少了一半，模型的文件大小也會(huì)小一半，那么加載到顯存時(shí)占用的空間也會(huì)小一半。大家可能都知道現(xiàn)在顯卡比較緊俏，我特地到京東查了一下，消費(fèi)級(jí)的3090在8K左右，4090已經(jīng)飆升到了1.5個(gè)W左右。

圖片

顯存占用小一半就可以使用更少數(shù)量的顯卡或者更低顯存的顯卡，這無疑會(huì)節(jié)省很多成本，而且模型的表現(xiàn)相比之前的大塊頭也沒有多少明顯的損失，所以用戶能獲得更高的性價(jià)比。

性能測(cè)試優(yōu)良

上邊提到Qwen1.5-32B的性能測(cè)試表現(xiàn)還不錯(cuò)，那么這個(gè)不錯(cuò)到底表現(xiàn)在哪里呢？

這里我找到一張測(cè)試結(jié)果的圖表：

圖片

之前我看這些圖表時(shí)都比較懵逼，主要就看誰的分?jǐn)?shù)高，分高就是好，但是具體好在哪里也說不清楚。

這次我特地去查詢了這些指標(biāo)代表的含義，總算是搞明白了，特別分享給大家。

這些分?jǐn)?shù)對(duì)應(yīng)的每一列都是一個(gè)數(shù)據(jù)集，所謂數(shù)據(jù)集就是一些問題的集合，用它們來考察大模型應(yīng)對(duì)各種問題的處理能力。這些數(shù)據(jù)集通常是知名大語言模型研究機(jī)構(gòu)發(fā)布的，比較權(quán)威。

MMLU(Massive Multitask Language Understanding): 多領(lǐng)域知識(shí)理解，考察的是綜合能力。涵蓋57個(gè)不同領(lǐng)域的多項(xiàng)選擇題，包括歷史、文學(xué)、科學(xué)、工程技術(shù)等多個(gè)學(xué)科。使用這個(gè)數(shù)據(jù)集能評(píng)估模型的泛化能力，就是用它解決沒有訓(xùn)練過的問題，或者說新問題，看看它的表現(xiàn)如何。
CMMLU: 中文場(chǎng)景的多領(lǐng)域知識(shí)理解。由MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出，包含67個(gè)主題，涉及自然科學(xué)、社會(huì)科學(xué)、工程、人文以及常識(shí)等，專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。
C-Eval: 中文能力評(píng)估。由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)的研究人員在2023年5月聯(lián)合推出。包含13948個(gè)多項(xiàng)選擇題，涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。
GSM8K (Google's Standard Math Dataset 8K): 解決數(shù)學(xué)問題的能力。Google開發(fā)的一個(gè)數(shù)學(xué)問題求解數(shù)據(jù)集，包含大約8,000個(gè)高中到大學(xué)水平的數(shù)學(xué)問題。
MATH: 解決數(shù)學(xué)問題的能力，類似于GSM8K。包含初等代數(shù)，代數(shù)，數(shù)論，計(jì)數(shù)和概率，幾何，中等代數(shù)和微積分等領(lǐng)域的多種數(shù)學(xué)問題，用LaTeX格式編寫。
MBPP (Mathematics Benchmarks for Pretrained Models): 數(shù)學(xué)推理和問題解決能力。包含一系列需要模型生成數(shù)學(xué)表達(dá)式或文字解答的數(shù)學(xué)問題。
HumanEval: 編程能力。由OpenAI創(chuàng)建，專為評(píng)估代碼生成模型的有效性。包含數(shù)百個(gè)編程題目及其解決方案。
BBH (Big-Bench Hard): 復(fù)雜語言理解能力。由Google、斯坦福等研究人員開發(fā)的數(shù)據(jù)集，包含大量復(fù)雜語言理解任務(wù)的集合，可能包含需要深度推理、常識(shí)運(yùn)用或復(fù)雜認(rèn)知技能的任務(wù)。

有了對(duì)這幾個(gè)指標(biāo)的理解，我們可以看到Qwen1.5-32B和Qwen1.5-72B的能力相差無幾，在理解復(fù)雜語言的能力上還略勝一籌，不知道是不是學(xué)習(xí)了百度弱智吧的問題。

在這個(gè)對(duì)比圖表上還有幾個(gè)模型，我特別介紹下：

Llama2-34B：Llama是Meta公司（也就是facebook）開源的一個(gè)大預(yù)言模型，有了Llama的開源，才有了國內(nèi)大模型的百花齊放，否則大家還得摸索一陣。不過從這張圖表上可以看出，Llama的這個(gè)模型已經(jīng)落后了，普遍落后于其他模型，真是青出于藍(lán)而勝于藍(lán)。
Yi-34B：這個(gè)據(jù)稱是自研成功的開源大語言模型，也是在Llama開源后推出的，自然是借鑒了Llama，只不過不清楚借鑒了多少。這個(gè)模型是李開復(fù)老師投資的零一萬物開發(fā)出來的，也是300多億的參數(shù)，綜合能力還不錯(cuò)，只是數(shù)學(xué)能力和解決復(fù)雜問題的能力比Qwen差一點(diǎn)。
Mixtral-8x7B：一款高質(zhì)量的稀疏專家混合模型，是一個(gè)歐洲公司開發(fā)的。這里的混合模型說的是其內(nèi)部有多個(gè)子模型，比如有的擅長數(shù)學(xué)，有的擅長法語，有的擅長代碼生成，等等。在生成Token時(shí)，Mixtral-8x7B會(huì)選擇兩個(gè)內(nèi)部的專家子模型進(jìn)行生成，每個(gè)專家子模型的參數(shù)是6B，所以它會(huì)比普通的300億參數(shù)處理的更快。從圖表對(duì)比可以看出其在數(shù)學(xué)和編程方面的能力還是挺不錯(cuò)的。

圖片

實(shí)測(cè)體驗(yàn)

指標(biāo)上的表現(xiàn)并不能代表全部，我們用最近熱議的“弱智吧”問題來測(cè)試一下。

“弱智吧”是一個(gè)百度貼吧，里邊充滿荒謬、離奇、不合常理的發(fā)言，研究者發(fā)現(xiàn)使用這里邊的問題訓(xùn)練大語言模型能獲得比較好的邏輯能力。

這里使用的工具是我在AutoDL上分享的一個(gè)鏡像實(shí)例，這個(gè)鏡像基于開源項(xiàng)目 text-generation webui，在這個(gè)webui中可以體驗(yàn)多種大語言模型。

創(chuàng)建實(shí)例

如果你也想實(shí)際測(cè)試一下，可以按照下面的步驟創(chuàng)建一個(gè)容器實(shí)例。

首先注冊(cè)一個(gè)賬號(hào)，AutoDL的訪問地址：https://www.autodl.com

創(chuàng)建實(shí)例時(shí)：地區(qū)選擇“西北B區(qū)”，網(wǎng)絡(luò)比較穩(wěn)定；因?yàn)殓R像安裝的大模型需要24G顯存，所以顯卡需要選擇3090或者4090；GPU數(shù)量只需要1個(gè)就能跑起來。

圖片

鏡像選擇“社區(qū)鏡像”，輸入 yinghuoai-text-generation-webui ，即可找到這個(gè)鏡像。

圖片

實(shí)例啟動(dòng)后，在服務(wù)器實(shí)例列表中點(diǎn)擊“JupyterLab”，進(jìn)入一個(gè)Web頁面。

圖片

在JupyterLab頁面中打開“啟動(dòng)器”，這個(gè)鏡像會(huì)安裝3個(gè)大模型，默認(rèn)啟動(dòng)的是Qwen-32B，這實(shí)際上是一個(gè)4bit的量化模型，只需要24G的顯存就能跑起來，但是相比原版的32B性能略有下降，不過也夠用了。原版的32B需要數(shù)倍的顯存，AutoDL上跑起來成本太高。

圖片