国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

300美元平替ChatGPT!斯坦福130億參數(shù)「小羊駝」誕生

人工智能 新聞
繼Alpaca 后,斯坦福聯(lián)手CMU、UC伯克利等機構(gòu)的學者再次發(fā)布了130億參數(shù)模型駱馬(Vicuna),僅需300美元就能實現(xiàn)ChatGPT 90%的性能。

繼Meta的LLaMA模型開源后,AI界研究人員就在這個模型基礎(chǔ)上衍生出許多版本。

前段時間,斯坦福發(fā)布了Alpaca,是由Meta的LLaMA 7B微調(diào)而來,僅用了52k數(shù)據(jù),性能可以與GPT-3.5匹敵。

今天,斯坦福學者聯(lián)手CMU、UC伯克利等,再次推出一個全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」(駱馬)。

圖片

Vicuna是通過在ShareGPT收集的用戶共享對話上對LLaMA進行微調(diào)訓練而來,訓練成本近300美元。

研究人員設(shè)計了8個問題類別,包括數(shù)學、寫作、編碼,對Vicuna-13B與其他四個模型進行了性能測試。

測試過程使用GPT-4作為評判標準,結(jié)果顯示Vicuna-13B在超過90%的情況下實現(xiàn)了與ChatGPT和Bard相匹敵的能力。

同時,在在超過90%的情況下勝過了其他模型,如LLaMA和斯坦福的Alpaca。

圖片

團隊成員來自加州大學伯克利分校、卡內(nèi)基梅隆大學、斯坦福大學、加州大學圣地亞哥分校和本·扎耶德人工智能大學。

圖片

90%匹敵ChatGPT

研究人員讓斯坦福的Alpaca和Vicuna來了一輪大比拼,分別對基準問題回答進行了演示。

在使用70K用戶共享的ChatGPT對話數(shù)據(jù)對Vicuna進行微調(diào)后,研究發(fā)現(xiàn)Vicuna能夠生成比Alpaca更詳細、結(jié)構(gòu)更合理的答案。

問:寫一篇關(guān)于最近去夏威夷旅行的有趣的旅游博客文章,強調(diào)文化體驗和必看景點。

圖片

Alpaca的回答可以說是一個濃縮版,短短幾行就寫完了,沒有按照要求完成任務(wù)。它僅是提到了自己寫了一篇博客,并對博客內(nèi)容做了一個概述。

圖片

再來看Vicuna,撰寫了一篇詳細且引人入勝的旅行博客文章,不僅內(nèi)容有趣,還詳細地介紹了夏威夷的文化體驗和必看景點。

圖片

由此,讓GPT-4給打分,Alpaca7分,Vicuna滿分。

圖片

那么和ChatGPT對打,Vicuna的表現(xiàn)又如何呢?

兩者雙雙得了9分!

可以看到,這兩個模型提供一次夏威夷之旅的文章不僅引人入勝,而且文筆流暢。

另外,兩個回答中的詳細程度和準確性都很出色,而且兩個模型都有效地傳達了夏威夷之旅的興奮和美麗。

此外,研究人員還將Vicuna與LLaMA,以及谷歌的Bard模型進行了測試,測試結(jié)果顯示,LLaMA表現(xiàn)最差(1分),幾乎沒有回應(yīng)。

Bard回答的準確性和相關(guān)性也是比較高,有9分的成績,但是在更具吸引力回答方面,略低于Vicuna。

除了寫作,研究人員在編碼、數(shù)學、角色扮演、常識等方面分別對Vicuna模型與其他四個模型的能力進行了對比,總共80道題。

圖片

最后,研究人員基于GPT-4的初步評估總結(jié)如圖所示。可以看到,Vicuna達到了Bard/ChatGPT的90%以上的能力。

圖片

由GPT-4評估的相對響應(yīng)質(zhì)量

有趣的是,在這次Vicuna的demo中,團隊還加入了Alpaca和LLaMA的試用,而前者剛被關(guān)閉不久。

Demo地址:https://chat.lmsys.org/

模型介紹

ChatGPT橫空出世讓人興奮不已,但OpenAI不Open的事實讓圈內(nèi)人實在懊惱。

恰恰,Meta的LLaMA模型開源,為許多研究人員動手研發(fā)自己的模型提供了選擇。

Vicuna-13B誕生正是受到LLaMA和斯坦福Alpaca項目的啟發(fā)。這是一個基于增強數(shù)據(jù)集和易于使用、可擴展的基礎(chǔ)設(shè)施的開源聊天機器人。

該模型的訓練數(shù)據(jù)來自于ShareGPT收集的用戶分享的對話,然后研究人員通過對LLaMA基本模型進行微調(diào),Vicuna-13B就誕生了。

Vicuna-13B展示了與其他開源模型(如斯坦福Alpaca)相媲美的性能。

研究人員對Vicuna-13B的性能進行了初步評估,并描述了其訓練和服務(wù)基礎(chǔ)設(shè)施。

同時,這一模型演示demo已經(jīng)上線,所有研究人員都能參與在線演示互動,以測試這個聊天機器人的能力。

圖片

工作流程概述

對于Vicuna-13B訓練流程,具體如下:

首先,研究人員從ChatGPT對話分享網(wǎng)站ShareGPT上,收集了大約70K對話。

接下來,研究人員優(yōu)化了Alpaca提供的訓練腳本,使模型能夠更好地處理多輪對話和長序列。之后利用PyTorch FSDP在8個A100 GPU上進行了一天的訓練。

在模型的質(zhì)量評估方面,研究人員創(chuàng)建了80個不同的問題,并用GPT-4對模型輸出進行了評價。

為了比較不同的模型,研究人員將每個模型的輸出組合成一個單獨的提示,然后讓GPT-4評估哪個模型給出的回答更好。

圖片

LLaMA、Alpaca、Vicuna和ChatGPT的對比

訓練

Vicuna是通過使用來自ShareGPT公共API收集的約70K用戶分享對話數(shù)據(jù)微調(diào)創(chuàng)建的。

為了確保數(shù)據(jù)質(zhì)量,研究人員將HTML轉(zhuǎn)換回markdown,并過濾掉一些不適當或質(zhì)量較低的樣本。

另外,研究人員將較長的對話劃分為較小的片段,以適應(yīng)模型的最大上下文長度。

Vicuna的訓練方法建立在斯坦福的Alpaca基礎(chǔ)上,并進行了以下改進:

  • 內(nèi)存優(yōu)化:

為了使Vicuna能夠理解長上下文,將最大上下文長度從Alpaca的512擴展到2048,這大大增加了GPU內(nèi)存需求。在此,研究人員通過使用梯度檢查點和閃存注意力來解決內(nèi)存壓力。

  • 多輪對話:

通過調(diào)整訓練損失以考慮多輪對話,并僅在聊天機器人的輸出上計算微調(diào)損失。

  • 通過Spot實例降低成本:

40倍的數(shù)據(jù)集和4倍的序列長度對訓練帶來了相當大的挑戰(zhàn)。研究人員采用SkyPilot托管的Spot實例來降低成本,通過利用自動恢復搶占與自動區(qū)域切換進而減少成本。

這種解決方案將7B模型的訓練成本從500美元降低到約140美元,將13B模型的訓練成本從約1000美元降低到300美元。

評估

評估AI聊天機器人是一項具有挑戰(zhàn)性的任務(wù),因為它需要檢查語言理解、推理和上下文意識。隨著AI聊天機器人變得越來越先進,現(xiàn)有的開放基準可能不再足夠。

例如,斯坦福Alpaca中使用的評估數(shù)據(jù)集self-instruct,可以被SOTA聊天機器人有效地回答,這使得人類難以分辨性能差異。更多的限制包括訓練/測試數(shù)據(jù)污染和創(chuàng)建新基準的潛在高成本。

為了解決這些問題,研究人員提出了一個基于GPT-4的評估框架,從而實現(xiàn)對聊天機器人性能的自動評估。

首先,通過精心設(shè)計的提示,讓GPT-4能夠生成多樣化且具有挑戰(zhàn)性的問題。并利用8個不同類別共80道題,如角色扮演、編碼/數(shù)學任務(wù)等,來測試這些模型(LLaMA、Alpaca、ChatGPT、Bard和Vicuna)在不同領(lǐng)域上表現(xiàn)出的性能。

然后,研究人員要求GPT-4根據(jù)幫助程度、相關(guān)性、準確性和細節(jié)對答案的質(zhì)量進行評分。結(jié)果顯示,GPT-4不僅可以產(chǎn)生相對一致的分數(shù),還可以提供詳細的解釋來說明為什么給出這樣的分數(shù)。但是,GPT-4并不擅長評判編碼/數(shù)學任務(wù)。

圖片

由GPT-4評估的響應(yīng)比較

GPT-4在超過90%的問題中更喜歡Vicuna,而不是現(xiàn)有的SOTA開源模型(LLaMA、Alpaca)。

在45%的問題中,GPT-4認為Vicuna的回答和ChatGPT差不多甚至更好。

綜合來看,Vicuna在總分上達到ChatGPT的92%。

圖片

局限

研究人員指出,與其他大語言模型類似,Vicuna也存在著一定的局限性。

比如,Vicuna在涉及編程、推理、數(shù)學以及事實準確性的任務(wù)上表現(xiàn)不佳。

此外,它也沒有經(jīng)過充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。

為解決安全方面的問題,研究人員在demo中采用了OpenAI的審查API來過濾掉不適當?shù)挠脩糨斎搿?/span>

剩下的名字不多了

現(xiàn)在,除了美洲駝(LLaMA),羊駝(Alpaca),駝馬(Vicuna)都安排上了。

研究人員要趕快沖,因為留給你們的名字不多了(1個)。

圖片


責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-03-14 13:45:14

模型AI

2023-04-07 13:54:37

模型AI

2023-03-22 15:14:00

數(shù)據(jù)模型

2023-04-04 13:17:00

GPUCMU開源

2023-03-15 10:26:00

模型開源

2023-05-26 10:50:38

模型AI

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2023-06-05 15:44:15

GPT-4AI

2023-05-22 09:28:30

模型AI

2023-09-21 12:31:54

AI數(shù)據(jù)

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-02-14 09:45:11

模型測試

2022-08-11 13:44:59

芯片AI

2024-05-06 08:00:00

AI模型

2023-06-25 13:28:21

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2023-02-17 09:01:50

ChatGPT對話機器人

2019-12-16 14:33:01

AI人工智能斯坦福
點贊
收藏

51CTO技術(shù)棧公眾號

日本在线成人| 台湾佬综合网| 欧美激情一区二区三区成人| av在线不卡顿| 精品国产免费久久久久久尖叫 | 国产日韩亚洲欧美综合| 欧洲性视频在线播放| 91免费精品视频| 曰韩精品一区二区| 精品国内亚洲2022精品成人| 隔壁人妻偷人bd中字| 日韩精品免费综合视频在线播放 | 自拍视频在线看| 国产精品免费区二区三区观看| 五月天中文字幕一区二区| 欧美精品一二| 调教在线观看| 国产视频福利一区| 色综合久久天天| 一区二区蜜桃| 成黄免费在线| 日韩欧美一区二区在线观看| 在线观看免费一区| 欧美资源在线| 裤袜国产欧美精品一区| 99草草国产熟女视频在线| 欧美在线视频在线播放完整版免费观看 | 久久精品aaaaaa毛片| 亚洲午夜精品久久久久久性色 | 国产理论在线| 国产日本一区二区三区| 欧美日韩夫妻久久| 国产精品亚洲一区二区三区妖精 | 久久久久亚洲| 七七成人影院| 日韩有码免费视频| 日本韩国欧美精品大片卡二| 欧美福利电影网| 91蜜桃免费观看视频| 色婷婷亚洲mv天堂mv在影片| 后进极品白嫩翘臀在线播放| 波多野结衣天堂| 久久久一本精品99久久精品66| 日韩精品免费在线视频观看| 亚洲人成在线播放网站岛国| 丝袜美腿亚洲色图| 精品国产一区二区三区久久久樱花 | 国产精品成人av在线| 91精品国产综合久久精品性色| 成人午夜在线视频| 欧美三级第一页| 日韩亚洲精品在线观看| 超碰免费在线播放| 午夜影院免费| 欧美日韩亚洲一| 日本10禁啪啪无遮挡免费一区二区| 91chinesevideo永久地址| 日韩久久午夜影院| 在线日韩国产精品| 亚洲免费伊人电影| 91亚洲永久精品| 精品一区二区免费| 国产一级一区二区| 日韩一区二区在线免费| 成人在线视频中文字幕| 久久影视精品| 欧美xo影院| av免费不卡| 色网站在线看| 1769视频在线播放免费观看| 日韩精品系列| 久草影视在线| 樱桃视频免费看| 成年人视频在线| 麻豆免费网站| 一级毛片免费观看| 992tv在线影院| 中文字字幕在线中文乱码电影| 久草影视在线| 天堂视频中文在线| 免费动漫网站在线观看| aaa日本高清在线播放免费观看| 春暖花开成人亚洲区| 日本激情在线观看| 国产丝袜在线播放| 亚洲天堂1区| aiss精品大尺度系列| 欧美女优在线视频| 亚洲视屏一区| 国产精品综合一区二区三区| 91视频你懂的| 亚洲国产一二三| 欧美一区二区三区在线视频| 伊人久久大香线蕉av一区二区| 蜜臀久久99精品久久久久久宅男 | 精品日韩一区二区三区| 亚洲开心激情网| 91精品国产高清| 精品日本一区二区三区| 亚洲精品蜜桃久久久久久| 天堂av在线资源| 你懂的视频在线播放| 日韩精品无码一区二区三区| 成人国产精品久久久久久亚洲| 黄色网络在线观看| jizz在线观看视频| 成人在线免费观看91| 91浏览器在线视频| 欧美自拍丝袜亚洲| 青青精品视频播放| xxx一区二区| 日韩影片在线播放| 黄页在线观看视频| 成人污版视频| 蜜臀av性久久久久蜜臀aⅴ | 成人午夜精品一区二区三区| 一区二区三区免费| 中文字幕日韩欧美在线视频| 成人自拍偷拍| 99精产国品一二三产品香蕉| 亚洲精品观看| 国产亚洲精品免费| 日韩你懂的在线播放| 狠狠久久综合婷婷不卡| 男男gay免费网站| 日本综合字幕| 国产精品亚洲产品| 欧美日韩久久不卡| 99精品99久久久久久宅男| 日本wwwwww| 视频一区在线| eeuss鲁片一区二区三区在线观看| 911精品国产一区二区在线| 91在线直播亚洲| 九色porny在线观看| 国产一区二区精品福利地址| 亚洲欧美经典视频| 国产精品高清网站| 嫩草影院网站在线| 成人激情免费视频| 欧洲一区在线电影| 日韩.欧美.亚洲| 亚洲日日夜夜| 欧美日韩国产一区在线| 亚洲一区不卡在线| 你懂的视频欧美| 欧美精品一区二区三| 高清hd写真福利在线播放| 亚洲在线国产日韩欧美| 欧美成人午夜剧场免费观看| 在线成人性视频| 97天天综合网| 久久精品久久精品| 欧美变态tickling挠脚心| 天天综合色天天综合色hd| 麻豆传媒视频在线观看| 日日夜夜免费精品| 亚洲激情自拍图| 精品无码av无码免费专区| 日韩一区二区三区在线免费观看 | 99pao成人国产永久免费视频| 在线观看日韩毛片| 日韩精品伦理第一区| 欧美韩日亚洲| k8久久久一区二区三区| 久久久伊人日本| av三级在线播放| 国产精品久久久久久模特 | 风间由美性色一区二区三区 | 国产精品乱码一区二三区小蝌蚪| 91国语精品自产拍在线观看性色| 在线观看成人网| 欧美精品国产| 国产香蕉一区二区三区在线视频| 久久久免费视频网站| 不卡中文字幕| 亚洲第一福利视频| 天天插天天操天天射| 亚洲国产二区| 欧美疯狂做受xxxx高潮| 男女网站在线观看| 26uuu另类欧美| 91成人伦理在线电影| 在线看欧美视频| 日本二三区不卡| 六月丁香婷婷激情| 午夜激情一区| 天天综合视频在线观看| 91精品一区二区| 69sex久久精品国产麻豆| 欧美日韩国产页| 久久久福利视频| 忘忧草在线www成人影院| 中文字幕av资源一区| 成人在线视频网址| 韩国精品主播一区二区在线观看 | 在线观看免费91| 日韩精品免费| 萌白酱国产一区二区| 毛片网站在线看|