国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2! 原創(chuàng)

發(fā)布于 2024-11-25 14:54
瀏覽
0收藏

編輯 |言征

小模型王座一夜易主了!冷不防,英偉達(dá)就丟出了一個(gè)新混合架構(gòu),以后不再只是Transformer的天下了。

日前,NVIDIA剛剛發(fā)布了Hymba-1.5B-Base,這是一個(gè)將Transformer注意力機(jī)制與狀態(tài)空間模型(SSM)集成的小型語(yǔ)言模型。

這種全新的混合架構(gòu)只使用1.5T的Tokens進(jìn)行訓(xùn)練,性能、速度卻全面超越了市面上主流的所有小模型!英偉達(dá)的科學(xué)家兼研究經(jīng)理Pavlo Molchanov在X上宣布了這一最新發(fā)展。

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)圖片

Hugging Face 的技術(shù)負(fù)責(zé)人及大型語(yǔ)言模型(LLMs)專家 Philipp Schmid 對(duì)此發(fā)展發(fā)表評(píng)論說(shuō):“Hymba 在僅使用1.5萬(wàn)億個(gè)標(biāo)記進(jìn)行訓(xùn)練的條件下,性能超越了其他小型大型語(yǔ)言模型,如Meta 3.2或SmolLM v2。”

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)圖片

1.雙重架構(gòu)、精確回憶、高效上下文

據(jù)“抱抱臉”上公開(kāi)資料顯示,Hymba-1.5B-Base是在今年年9月1日至2024年11月10日期間進(jìn)行訓(xùn)練的,許可證方面則根據(jù)NVIDIA開(kāi)放模型許可協(xié)議發(fā)布。

Hymba模型使用雙重結(jié)構(gòu),具有精確回憶的注意力頭和高效上下文總結(jié)的SSM頭。

具體來(lái)講,其特點(diǎn)在于采用了混合頭并行架構(gòu),該架構(gòu)將Transformer注意力機(jī)制與狀態(tài)空間模型(SSM)相結(jié)合,以提高效率。注意力頭提供高分辨率的回憶能力,而SSM頭則實(shí)現(xiàn)高效的上下文總結(jié)。此外,模型還引入了可學(xué)習(xí)的Meta標(biāo)記,這些標(biāo)記被添加到提示之前,用于存儲(chǔ)關(guān)鍵信息,并減輕與注意力機(jī)制相關(guān)的“被迫關(guān)注”負(fù)擔(dān)。通過(guò)引入跨層鍵值(KV)共享和部分滑動(dòng)窗口注意力,該模型得到了進(jìn)一步優(yōu)化,從而實(shí)現(xiàn)了緊湊的緩存大小。

在一項(xiàng)對(duì)比相同設(shè)置下不同架構(gòu)的受控研究中,Hymba-1.5B-Base 展現(xiàn)出了顯著優(yōu)勢(shì)。

它在所有公開(kāi)可用的、參數(shù)少于20億的模型中表現(xiàn)優(yōu)異,并以平均準(zhǔn)確率高出1.32%、緩存大小減少11.67倍、吞吐量提升3.49倍的成績(jī)超越了Llama-3.2-3B。

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)

2.模型架構(gòu)非常巧妙

Hymba-1.5B-Base是一款基礎(chǔ)文本到文本的模型,可用于多種自然語(yǔ)言生成任務(wù)。論文《Hymba: A Hybrid-head Architecture for Small Language Models》進(jìn)一步闡述了模型的思想和實(shí)驗(yàn)對(duì)比。

論文地址:https://arxiv.org/pdf/2411.13676

該模型采用混合架構(gòu),其中Mamba和注意力頭并行運(yùn)行。每個(gè)提示前都會(huì)添加一組可學(xué)習(xí)的標(biāo)記(稱為Meta標(biāo)記),以提高模型的有效性。該模型在兩層之間以及單層內(nèi)的各個(gè)頭之間共享鍵值(KV)緩存。90%的注意力層采用滑動(dòng)窗口注意力機(jī)制。

Hymba-1.5B-Base的模型嵌入大小為1600,擁有25個(gè)注意力頭,MLP中間維度為5504,總層數(shù)為32層,16個(gè)SSM狀態(tài),3個(gè)全注意力層,其余為滑動(dòng)窗口注意力層。與標(biāo)準(zhǔn)Transformer不同,Hymba中的每個(gè)注意力層都并行結(jié)合了標(biāo)準(zhǔn)注意力頭和Mamba頭的混合組合。此外,它還使用了分組查詢注意力(GQA)和旋轉(zhuǎn)位置嵌入(RoPE)。

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)圖片

概括來(lái)講,這架構(gòu)有三個(gè)值得注意的特點(diǎn):

首先,在同一層內(nèi)融合注意力頭和SSM頭,對(duì)相同輸入進(jìn)行并行且互補(bǔ)的處理;此外,還引入了元標(biāo)記(meta tokens),這些標(biāo)記被添加到輸入序列的前面,并與所有后續(xù)標(biāo)記進(jìn)行交互,從而存儲(chǔ)重要信息并減輕注意力中“必須關(guān)注”的負(fù)擔(dān);最后,還結(jié)合了跨層KV共享和全局-局部注意力,進(jìn)一步提升內(nèi)存和計(jì)算效率。

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)圖片

3.性能超越所有主流小模型,包括Llama3.2

Hymba-1.5B-Base在所有低于20億的公開(kāi)模型中表現(xiàn)優(yōu)異。

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)圖片

研究人員從準(zhǔn)確率、緩存大小、處理速度三個(gè)方面綜合評(píng)估了現(xiàn)在主流的小語(yǔ)言模型,比如Meta的Llama3.2-1B、Apple的OpenELM-1B、微軟的Phi-1.5B、抱抱臉的SmoILM2-1.7B、阿里巴巴的Qwen2.5-1.5B等。 

綜合評(píng)估和消融研究表明,Hymba不僅在眾多具有代表性的任務(wù)中樹(shù)立了新的最優(yōu)(SOTA)基準(zhǔn)性能,而且在效率方面相比Transformer和之前的混合模型也更高。例如,在常識(shí)推理任務(wù)中,Hymba-1.5B的平均準(zhǔn)確率比Llama-3.2-3B高出1.32%,而所需的緩存大小卻小了11.67倍,速度快了3.49倍。

一夜小模型王座易主!英偉達(dá)發(fā)布超強(qiáng)小模型,性能、速率、緩存全面超越Llama3.2!-AI.x社區(qū)圖片

NVIDIA 還提供了一個(gè)設(shè)置腳本,以簡(jiǎn)化環(huán)境配置,支持CUDA 12.1和12.4版本。

4.不過(guò),需要小心

英偉達(dá)承認(rèn)該模型是利用從互聯(lián)網(wǎng)上原始抓取的數(shù)據(jù)進(jìn)行訓(xùn)練的,這就意味著訓(xùn)練數(shù)據(jù)包含有毒語(yǔ)言、不安全內(nèi)容和社會(huì)偏見(jiàn)。因此,該模型可能會(huì)放大這些偏見(jiàn),并在接收到有毒提示時(shí)返回有毒的回應(yīng)。

即使提示本身不包含任何明顯冒犯性的內(nèi)容,該模型也可能生成不準(zhǔn)確、遺漏關(guān)鍵信息或包含不相關(guān)或冗余文本的答案,從而產(chǎn)生社會(huì)不可接受或不受歡迎的文本。

除了有毒內(nèi)容方面需要注意,工程方面也需要注意:

用戶應(yīng)在生成期間將批處理大小設(shè)置為1,因?yàn)楫?dāng)前設(shè)置不完全支持帶有滑動(dòng)窗口注意的填充元標(biāo)記。然而,任何批次大小都適用于訓(xùn)練和預(yù)填充。

5.本月25日公開(kāi)模型權(quán)重,可商用

英偉達(dá)非常強(qiáng)調(diào)在創(chuàng)建值得信賴的人工智能方面分擔(dān)責(zé)任的重要性,并為其發(fā)展制定了道德準(zhǔn)則。建議用戶負(fù)責(zé)任地使用該模型,同時(shí)注意其局限性。

“在按照我們的服務(wù)條款下載或使用時(shí),開(kāi)發(fā)者應(yīng)與內(nèi)部模型團(tuán)隊(duì)合作,確保該模型滿足相關(guān)行業(yè)和使用場(chǎng)景的要求,并解決產(chǎn)品濫用等不可預(yù)見(jiàn)的問(wèn)題。”

Molchanov 評(píng)論道:“我不確定我們是否應(yīng)該為使用1.5萬(wàn)億個(gè)標(biāo)記的訓(xùn)練感到自豪。原因是我們要追求速度;在接下來(lái)的兩周里,就會(huì)有人做得更好。”

不過(guò)好消息是,Hymba模型已準(zhǔn)備好用于商業(yè)用途了,而且模型權(quán)重也即將推出,預(yù)計(jì)11月25日發(fā)布!

相信大家這兩天就可以快速用上這款非常nice的小模型了。

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    亚州av乱码久久精品蜜桃| 精品一区二区三| 亚洲欧洲成人精品av97| 久久久久久久久久久久久久一区| 日韩欧美看国产| 亚洲色图19p| 正在播放久久| 天天射—综合中文网| 在线精品高清中文字幕| 东热在线免费视频| 中文字幕一区三区| 国产精品视频一二三四区| 欧美日韩精品一本二本三本| 久久久精品999| 中文字幕资源网在线观看| 亚洲一区二区三区视频在线播放 | 嫩草影院永久入口| 成人在线综合网| 日本午夜精品一区二区| 91精品久久久久久久久久不卡| 欧美老妇交乱视频| 国产成人精品一区二三区在线观看| 91精品欧美一区二区三区综合在 | 7777奇米亚洲综合久久| 欧美国产极品| 久久亚洲精品小早川怜子66| 亚洲精华液一区二区三区| 欧美日本国产视频| 欧美91精品久久久久国产性生爱| 亚洲日本在线a| 天天干天天干天天干天天干天天干| 国产一区二区三区免费播放| 女女同性女同一区二区三区91| 欧美福利视频| 亚洲综合中文字幕68页| 日韩欧美午夜| 国产美女精品视频| 清纯唯美亚洲综合一区| 国产精品久久久久高潮| 国产99亚洲| 国产91在线高潮白浆在线观看| 女人抽搐喷水高潮国产精品| 国模私拍一区二区三区| 成人台湾亚洲精品一区二区| 欧美大片免费观看在线观看网站推荐 | 亚洲精品成人自拍| 青青草国产精品97视觉盛宴 | 国产精品一线| 777午夜精品福利在线观看| 国产免费区一区二区三视频免费| 日韩一区二区不卡| 成熟了的熟妇毛茸茸| 成人亚洲精品久久久久软件| 久久精品无码中文字幕| 不卡一二三区首页| 97成人在线观看视频| 中文字幕不卡一区| 国产91福利| 欧美性感美女h网站在线观看免费| 欧美捆绑视频| 日韩欧美中文字幕公布| jizz内谢中国亚洲jizz| 久久中国妇女中文字幕| 久久久久久毛片免费看 | 亚洲成人黄色网| 小视频免费在线观看| 日韩视频免费看| 国产日韩三级| 成人免费自拍视频| 麻豆九一精品爱看视频在线观看免费| 一区二区在线不卡| 91网页版在线| 日本激情视频网| 欧美视频一区二区三区| 欧美xxxx视频| 久久国产精品影片| 午夜欧美在线| 国产av第一区| 国产精品的网站| 色网站免费在线观看| 在线看片第一页欧美| 欧美军人男男激情gay| 免费久久一级欧美特大黄| 成人网男人的天堂| 麻豆传媒在线视频| 亚洲成**性毛茸茸| 欧美人与动xxxxz0oz| 好吊色欧美一区二区三区四区 | 亚洲欧美卡通另类91av| 中国一级大黄大黄大色毛片| 中文字幕一区二区三区不卡在线| 欧美日韩视频精品二区| 亚洲午夜国产成人av电影男同| 美女一区二区在线观看| 久久国产主播精品| 国产亚洲精品aa| www.亚洲.com| 久久乐国产精品| av成人国产| 亚洲最大综合网| 日韩一级二级三级精品视频| 国产精品17p| 一区二区三区我不卡| 亚洲香蕉伊在人在线观| 久久精品女人天堂av免费观看 | 亚洲精品理论电影| 国产最新精品| 日韩视频 中文字幕| 五月天丁香久久| 成人黄色毛片| 久久久久久亚洲精品不卡4k岛国 | 91精品久久久久久综合乱菊| 国产高清亚洲一区| 国产鲁鲁视频在线观看免费| 九九精品视频在线| 日韩电影在线免费| 在线观看你懂得| 欧美成人第一页| 秋霞av亚洲一区二区三| 真不卡电影网| 欧美另类高清videos| 久久精品盗摄| 同心难改在线观看| 2019中文字幕免费视频| 国产成人精品免费网站| 婷婷免费在线视频| 国产精品美女久久久久久免费| 99久久777色| 日韩电影毛片| 国产日韩亚洲精品| 黄色91在线观看| 日韩手机在线| 热久久精品国产| 亚洲人免费视频| 日韩1区2区3区| 9色在线视频| 91色视频在线导航| 亚洲精品欧美激情| 99亚洲乱人伦aⅴ精品| 亚洲 欧美 日韩 国产综合 在线 | 91精品国产色综合久久不卡电影 | 国产在线播精品第三| av电影在线播放高清免费观看| 国产精品黄色av| 亚洲婷婷综合色高清在线| 亚洲老司机网| 国产一级大片免费看| 亚洲成人免费在线视频| 欧美亚洲网站| 日本三级视频在线播放| 国产视频在线观看一区| 精品高清美女精品国产区| 神马影视一区二区| 男女激情网站| 日本亚洲欧美成人| 亚洲美女视频在线观看| 麻豆一区二区| 国产字幕中文| 国产精品一二三视频| 亚洲国产另类精品专区| 九九综合久久| 欧美高潮视频| 91超碰在线免费观看| 在线免费观看成人短视频| 亚洲天堂免费| 在线观看黄av| 日本黄网免费一区二区精品| 精品国产网站在线观看| 久久电影网站中文字幕 | 国产区美女在线| 在线免费一区| 最近中文字幕2019免费| 久久噜噜亚洲综合| 亚洲人成网77777色在线播放| 日本一二三区视频免费高清| 国产日韩中文字幕| 欧美精品在线观看播放| 久久精品国产一区二区| 欧美日韩五区| 十八禁视频网站在线观看| 国产成人福利网站| 欧美在线不卡一区| 美国三级日本三级久久99| 亚洲精品aaa| 欧美艹逼视频| 欧美精品亚洲精品| 国产亚洲xxx| 中文字幕亚洲区| 欧美特黄a级高清免费大片a级| 欧美一卡二卡| 国产中文字幕二区| 国产精品久久久久9999| 欧美日韩一区在线观看| 国产成人精品aa毛片| 欧美日韩xxxx| 成人女同在线观看| 99热在线观看免费| 久久99精品久久久久久久青青日本 | 免费97视频在线精品国自产拍| 一区二区三区不卡视频|