国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

調用多個ChatGPT API相互對話,清華開源的多輪對話數據UltraChat來了

人工智能 新聞
UltraChat 解決了數據荒的一大難題。

自 ChatGPT 發布以來,這段時間對話模型的熱度只增不減。當我們贊嘆這些模型表現驚艷的同時,也應該猜到其背后巨大的算力和海量數據的支持。

單就數據而言,高質量的數據至關重要,為此 OpenAI 對數據和標注工作下了很大力氣。有多項研究表明,ChatGPT 是比人類更加可靠的數據標注者,如果開源社區可以獲得 ChatGPT 等強大語言模型的大量對話數據,就可以訓練出性能更好的對話模型。這一點羊駝系列模型 ——Alpaca、Vicuna、Koala—— 已經證明過。例如,Vicuna 使用從 ShareGPT 收集的用戶共享數據對 LLaMA 模型進行指令微調,就復刻了 ChatGPT 九成功力。越來越多的證據表明,數據是訓練強大語言模型的第一生產力。

ShareGPT 是一個 ChatGPT 數據共享網站,用戶會上傳自己覺得有趣的 ChatGPT 回答。ShareGPT 上的數據是開放但瑣碎的,需要研究人員自己收集整理。如果能夠有一個高質量的,覆蓋范圍廣泛的數據集,開源社區在對話模型研發方面將會事半功倍。

基于此,最近一個名為 UltraChat 的項目就系統構建了一個超高質量的對話數據集。項目作者嘗試用兩個獨立的 ChatGPT Turbo API 進行對話,從而生成多輪對話數據。

圖片

  • 項目地址:https://github.com/thunlp/UltraChat
  • 數據集地址:http://39.101.77.220/
  • 數據集交互地址:https://atlas.nomic.ai/map/0ce65783-c3a9-40b5-895d-384933f50081/a7b46301-022f-45d8-bbf4-98107eabdbac

具體而言,該項目旨在構建一個開源、大規模、多輪的基于 Turbo APIs 的對話數據,方便研究者開發具有通用對話能力的強大語言模型。此外,考慮到隱私保護等因素,該項目不會直接使用互聯網上的數據作為提示。為了確保生成數據質量,研究者在生成過程中采用了兩個獨立的 ChatGPT Turbo API,其中一個模型扮演用戶角色來生成問題或指令,另一個模型生成反饋。

圖片

如果直接使用 ChatGPT 基于一些種子對話和問題讓其自由生成,容易出現話題單一、內容重復等問題,從而難以保證數據本身的多樣性。為此,UltraChat 對對話數據覆蓋的主題和任務類型進行了系統的分類和設計,還對用戶模型和回復模型進行了細致的提示工程,它包含三個部分:

  • 關于世界的問題(Questions about the World):這部分對話來自于對現實世界中的概念、實體和對象相關的廣泛詢問。所涉及的主題涵蓋科技、藝術、金融等多個領域。
  • 寫作與創作(Writing and Creation):這部分對話數據著重于指示 AI 從頭進行創作一個完整的文本材料,并在此基礎上進行后續的提問或進一步指導以完善寫作,撰寫的材料內容類型包括文章、博客、詩歌、故事、戲劇,電子郵件等等。
  • 對于現有資料的輔助改寫(Writing and Creation):該對話數據是基于現有資料生成的,指令包括但不限于改寫、續寫、翻譯、歸納、推理等,涵蓋主題同樣非常多樣。

這三部分數據覆蓋了大部分用戶對于 AI 模型的要求。同時,這三類數據也會面臨著不同的挑戰,為此需要不同的構造方法。

例如,第一部分的數據主要挑戰在于如何在總量為幾十萬組對話中盡量廣泛地涵蓋人類社會中的常見知識,為此研究者從自動生成的主題和來源于 Wikidata 的實體兩個方面進行了篩選和構造。

第二、三部分的挑戰主要來自于如何模擬用戶指令,并在后續對話中讓用戶模型的生成盡量多樣化的同時又不偏離對話的最終目標(按照要求生成材料或改寫材料),為此研究者對用戶模型的輸入提示進行了充分的設計和實驗。在構造完成之后,作者還對數據進行了后處理以削弱幻覺問題。

目前,該項目已經發布了前兩部分的數據,數據量為 124 萬條,應該是目前開源社區內規模最大的相關數據集。內容包含在現實世界中豐富多彩的對話,最后一部分數據將在未來發布。

世界問題數據來源于 30 個具有代表性和多樣性的元主題,如下圖所示:

圖片


  • 基于以上元主題,該項目生成了 1100 + 子主題用于數據構建;
  • 對于每個子主題,最多生成 10 個具體問題;
  • 然后使用 Turbo API 為 10 個問題中的每一個生成新的相關問題;
  • 對于每個問題,如上所述迭代地使用兩個模型生成 3~7 輪對話。

此外,該項目從維基數據中收集了最常用的 10000 個命名實體;使用 ChatGPT API 為每個實體生成 5 個元問題;對于每個元問題,生成 10 個更具體的問題和 20 個相關但一般的問題;采樣 20w 個特定問題和 25w 個一般問題以及 5w 個元問題,并為每個問題生成了 3~7 輪對話。

接下來我們看一個具體的例子:

圖片

我們在 UltraChat 平臺上測試了數據搜索效果。例如,輸入「音樂(music)」,系統會自動搜索出 10000 組與音樂相關的 ChatGPT 對話數據,并且每組都是多輪對話

圖片

輸入關鍵詞「數學(math)」的搜索結果,有 3346 組多輪對話:

圖片

目前,UltraChat 涵蓋的信息領域已經非常多,包括醫療、教育、運動、環保等多個話題。同時,筆者嘗試使用開源的 LLaMa-7B 模型在 UltraChat 上進行監督的指令微調,發現僅僅訓練 10000 步后就有非常可觀的效果,一些例子如下:

圖片

世界知識:分別列出 10 個很好的中國和美國大學?

圖片

想象問題:當時空旅行成為可能后,有什么可能的后果?

圖片

三段論:鯨魚是魚嗎?

圖片

假設問題:證明成龍比李小龍更出色

圖片

總體來說,UltraChat 是一個高質量、范圍廣的 ChatGPT 對話數據集,可以和其它數據集結合,顯著地提升開源對話模型的質量。目前 UltraChat 還只放出了英文版,但也會在未來放出中文版的數據。感興趣的讀者快去探索一下吧。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-08 07:33:48

2025-07-04 00:00:00

2025-07-17 09:28:09

2025-07-14 07:30:00

2025-10-27 01:50:00

2023-05-21 23:40:03

開源圖文模型

2023-04-04 19:09:20

ChatGPT開源

2020-04-23 13:51:05

AI管理GUI

2023-04-28 09:02:24

智能客服人工智能Siri

2023-01-14 14:59:05

達摩院

2024-01-08 13:33:00

數據訓練

2023-05-08 06:52:47

開源PythonAPI

2025-06-09 08:30:00

2025-04-21 08:13:58

ChatGPTAINLP

2023-09-02 12:49:01

2023-03-15 09:36:14

模型

2020-08-04 14:18:56

算法開源Github

2025-05-23 09:18:25

2025-03-24 12:42:52

點贊
收藏

51CTO技術棧公眾號

亚洲人体一区| 亚洲欧洲日韩综合二区| 亚洲视频tv| 亚洲欧美一区二区三区国产精品 | 中文字幕av一区 二区| 国产精选一区| 在线播放精品一区二区三区| free性欧美hd另类精品| 欧美喷水一区二区| 久久99精品久久久久久野外| 欧美一区永久视频免费观看| 一色桃子av在线| 欧美岛国在线观看| 国产激情视频在线看| 蜜桃av一区二区三区电影| 尤物九九久久国产精品的分类| 国产91对白在线观看九色| 日本欧美视频在线观看| 日本大胆欧美| 久草.com| 9久草视频在线视频精品| 美女av免费观看| 99久久精品情趣| 亚洲黄色a v| 亚洲免费av在线| 头脑特工队2在线播放| 欧美综合天天夜夜久久| 麻豆传媒在线免费| 日韩成人在线视频| 亚洲二区av| 欧美一区二区三区免费观看| 欧美国产一级| 免费观看国产成人| 国产精品影视天天线| 精品国产成人av在线免| 中文字幕人成不卡一区| 在线播放网站| 欧美成人video| 一呦二呦三呦精品国产| 欧美国产第一页| 久久视频国产| 亚洲巨乳在线观看| 久久免费午夜影院| 伪装者在线观看完整版免费| 国产精品国产亚洲伊人久久| 亚洲国产一区二区三区| 99天天综合性| 猫咪成人官网| 首页亚洲中字| www.亚洲天堂网| 露出调教综合另类| 久久久精品2019中文字幕神马| 久久电影一区| 中文字幕中文字幕在线中心一区 | 欧美日韩国产一区二区三区| 日本男女交配视频| 丁香亚洲综合激情啪啪综合| 国产精品原创| 国产91在线精品| av在线第一页| 亚洲国产成人在线播放| 五月激情综合| 麻豆视频网站在线观看| 欧美日韩日日摸| 最色在线观看| 欧美天天综合色影久久精品| 国产视频一区在线| 日韩不卡在线| 午夜精品久久久内射近拍高清 | 精品激情国产视频| 老司机精品视频导航| av免费在线观看网址| 手机成人在线| 亚洲欧美日韩区| 91香蕉视频污在线| 高潮按摩久久久久久av免费| 99视频在线视频| 91精品国产综合久久香蕉的用户体验 | 蜜桃传媒在线观看免费进入| 韩国成人一区| 中文字幕亚洲自拍| 国产欧美精品一区二区三区四区| 成人盗摄视频| 日韩欧美亚洲系列| 午夜精品区一区二区三| 久久成人免费视频| 一区二区三区在线看| 黄色日韩在线| 国产精品视频一区二区三区综合 | 国产剧情一区| 免费**毛片在线| 国产精品入口免费软件| 国产精品美女久久久久av超清| 欧美三级在线播放| 久久99精品久久久久久久青青日本| 91精品国产综合久久久蜜臀粉嫩 | 欧美日韩一区二区三区在线观看免| 精品久久久三级丝袜| 国产精品大尺度| 美女在线视频一区| 国产精成人品2018| 视频国产一区二区三区| a级黄色片免费| 国产成人精品在线视频| 亚洲免费视频一区二区| 亚洲码国产岛国毛片在线| 另类调教123区| 精品国产日韩欧美| 日韩精品视频中文字幕| 色在线视频网| 最近中文字幕免费mv2018在线| 成人性生生活性生交12| 福利在线一区二区| 女同一区二区| 91久久大香伊蕉在人线| 欧美在线视频一区| 国产精品久久中文| 97在线视频免费| 欧美精品在线网站| 正在播放欧美视频| 日韩欧美高清在线| 日韩一区二区在线看片| 在线中文字幕不卡| 欧美色图天堂网| 欧美夫妻性生活| 欧美午夜精品一区二区蜜桃| 91九色最新地址| 欧美色涩在线第一页| 91久久精品一区二区二区| 欧美日韩国产在线播放网站| 欧美性淫爽ww久久久久无| 五月综合激情日本mⅴ| 色综合视频一区二区三区高清| 一区2区3区在线看| 91成人在线精品| 欧美日韩1234| 亚洲精品视频免费在线观看| 在线观看日韩专区| 日韩风俗一区 二区| 一个人www欧美| 热re91久久精品国99热蜜臀| 国产精品极品美女粉嫩高清在线| 91亚洲精品一区二区| 日韩高清三级| 国产一区二区三区精彩视频| 国产又黄又猛视频| 亚洲欧洲动漫| av软件在线观看| 亚洲91网站| 国产欧美日韩综合一区在线播放 | 国产免费一区二区三区在线能观看 | 99国产精品久久久久久久久久久 | 国产一二精品视频| 无码国模国产在线观看| 特级毛片在线观看| 国产精品久久一区| 亚洲国产精品久久久久| 精品人伦一区二区三区蜜桃网站| 日韩视频中文| 高潮在线视频| 黄色美女久久久| 亚洲激情欧美| 国产精品国产a| 色国产精品一区在线观看| 精品亚洲男同gayvideo网站| 韩国三级日本三级少妇99| 性欧美精品一区二区三区在线播放 | 欧美一区二区三区四区在线观看| 亚洲一区二区三区四区中文| 欧美激情日韩| 亚洲一区二区三区777| 91精品天堂福利在线观看| 成人福利在线观看| 天天躁日日躁成人字幕aⅴ| 国产丝袜一区二区| 中文字幕一区久| 亚洲人免费视频| 成人性生交大片免费网站 | 成人18视频| 欧美日韩1区2区3区| 亚洲影视中文字幕| 国产精品mv在线观看| 99热最新在线| 久久影院亚洲| 国产女教师bbwbbwbbw| av在线不卡免费看| 欧美成人一区二区在线观看| 国产不卡在线视频| 国产91在线视频观看| 国产一区在线精品| www.av毛片| 亚洲天堂久久久久久久| 日本夜爽爽一二区| 久久天堂精品| 国产精品视频公开费视频| 国产精品传媒麻豆hd| 欧美日韩亚洲综合一区| 国产a级一级片| 激情综合在线| 久久视频免费观看|