国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

開源垂直領域高質量數據合成框架!專業QA自動生成,無需人工標注,來自上海AI Lab

人工智能 新聞
通過“知識圖譜引導+雙模型協同”機制,顯著增強模型對垂域的理解能力。

垂域模型訓練,高質量問答數據稀缺一直是行業痛點。

在垂直領域大模型訓練中,人工標注成本高昂,合成數據又常陷入質量與專業性難以兼得的困境。

為此,上海AI實驗室等提出GraphGen。

通過“知識圖譜引導+雙模型協同”機制,顯著增強模型對垂域的理解能力。

同時,研究團隊已經在OpenXLab部署了Web應用,上傳你的文本塊(如海事、海洋知識)、填寫SliconCloud API Key,即可在線生成LLaMA-Factory、XTuner所需的訓練數據。

背景說明

垂域模型(如醫療、農業)訓練中,獲取QA(問答對)數據常常面臨以下難題:

量大。只是學習回復風格只需數百條,尚且能人工標注;用SFT(Supervised Fine-Tuning)給模型注入新知識,需要數十萬的樣本量,此時數據合成手段是剛需。

專業背景。開源LLM在小眾領域已經表現不錯,但垂域應對的是真正的“硬骨頭”。面對領域數據,普通人可能每個字都認識,但連在一起并不知道什么含義。比如,不借助工具,請試著讀懂這句:

1AGIS_Os01g033640是一個怎樣的數量性狀基因(QTG),與鹽脅迫表達是否有關聯?

質量把控?!癓LM-RAG-打分”通常也被拿來合成 SFT 數據,但這條pipeline存留一些問題:

正確性。在LLM不具備領域知識時,直接給領域問答數據打分,容易陷入“先有雞先有蛋”的難題

簡單的關聯度得分也不足以衡量數據質量,不僅沒有回復長度、信息豐度等指標,更缺少語義層面的保證

方案介紹

為了解決以上問題,上海AI Lab開源了GraphGen,一個在知識圖譜引導下的合成數據生成框架,旨在知識密集型任務中生成問答

這是基于GraphGen和SiliconCloud Qwen2.5-7B-Instruct API實跑的 QA 樣例:

1Q:隆兩優1212是什么品種的水稻,其機播時間是什么時候?
2A:首先,隆兩優1212是一種早熟品種,于2017年引入福建省龍巖市長汀縣試種。這種水稻在煙草收獲后進行種植,因此被稱為煙后稻。隆兩優1212的機播時間定在了6月15日。隨著時間的推移,到了2019年,隆兩優1212進一步擴大了示范種植的范圍。此外,隆兩優1212還具有抽穗整齊的生長特點,這進一步證明了其優良的種植性能。
3
4Q:What role does the BG1 gene play in plant growth and development, and how is its expression regulated?
5A:AUXIN, a class of plant hormones that regulate various aspects of plant growth and development, plays a crucial role in the induction of the BG1 gene. Specifically, BG1 is induced by auxin treatment, indicating its involvement in auxin transport regulation. This gene is preferentially expressed in the vascular tissue of culms, further highlighting its localization in these tissues. The function of BG1 extends beyond auxin transport regulation, as it is also linked to the regulation of grain size and tiller angle. Tiller angle, a critical architectural feature of rice plants that influences grain yield, is directly affected by the expression of BG1. Therefore, the role of BG1 in regulating both grain size and tiller angle underscores its importance in plant architecture and overall yield.

GraphGen會使用到兩個LLM,一個是合成模型,負責構建知識圖譜、合成數據等;另一個是學生模型,用來識別它自己的知識盲點,方便針對性的選擇數據。

圖片

上圖是GraphGen工作流:

首先輸入一段原始文本,使用合成模型從源文本構建細粒度的知識圖譜。

然后,利用預期校準誤差(Expected Calibration Error, 簡稱 ECE)來識別學生模型的知識盲點,針對知識盲點優先生成針對高價值、長尾知識的問答對。

接著,GraphGen框架結合多跳鄰域采樣來捕捉復雜的關聯信息,并采用風格控制生成技術來使生成的問答數據多樣化。

最終得到一系列和原始文本相關的問答對。用戶可以直接用這批數據在llama-factory或者xtuner這樣的訓練框架中進行SFT。

優秀的數據合成方法有很多,研究團隊在論文中做了對比測試:

圖片

研究團隊采用的是客觀指標:

MTLD(Measure of Textual Lexical Diversity)通過計算文本中連續詞串的平均長度來評估詞匯的多樣性

Uni(Unieval Score)是基于對話模型的自然度、一致度、可理解度評價指標

Rew(Reward Score)是BAAI和OpenAssistant開源的兩個Reward Model計算的得分

由上圖可見,GraphGen能給出相對較好的合成數據。

同時研究團隊在開源數據集(SeedEval、PQArefEval、HotpotEval 分別對應農業、醫學、通用)訓練測試,結果表明GraphGen自動合成的數據能夠降低Comprehension Loss(越低代表學生模型的知識盲點越少),增強模型對垂域的理解力。

圖片

工具使用

研究團隊已經在OpenXLab平臺推出了一個便捷的Web應用。用戶可以輕松上傳各類文本塊(例如海事、海洋知識等),并通過填寫SiliconCloud API Key,快速生成適配LLaMA-Factory和XTuner訓練框架所需的高質量訓練數據。

圖片

需要注意的是:

為了方便試用,默認配置免費的7B模型。真實業務中請用更大的合成模型(14B 及以上),并開啟Trainee 難例挖掘

Web應用默認配置SiliconCloud做API Key,也支持本地vllm部署,請自行修改base URL

GitHub 和論文地址:https://github.com/open-sciencelab/GraphGenOpenXLab Web

體驗地址:https://g-app-center-000704-6802-aerppvq.openxlab.space

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-12-01 13:56:56

人工智能AI數據

2025-04-15 09:22:00

AI訓練模型

2025-02-18 15:03:58

數據AI模型

2025-08-27 07:17:00

數據驅動數據治理大數據

2025-04-15 09:08:51

系統數據模型

2024-05-09 08:33:33

2022-08-25 16:46:29

人工智能AI

2022-11-03 15:10:24

前端數據結構算法

2025-11-28 10:19:32

2025-08-11 17:58:00

AI圖像生成數據

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2023-12-10 15:17:59

開源模型3D

2015-08-19 08:54:23

Android開發框架

2025-06-25 08:53:00

模型AI強化學習

2025-06-18 08:47:00

2025-04-25 09:20:00

數據模型AI

2024-06-11 07:02:00

大模型3D內容生成技術

2025-11-12 08:40:00

數據AI模型
點贊
收藏

51CTO技術棧公眾號

美女扒开腿让男人桶爽久久软| 精品久久久无码人妻字幂| 亚洲男女性事视频| caoprom在线| 在线电影av不卡网址| 天堂av网在线| 精品久久久网站| 欧美日韩尤物久久| 欧美成人午夜激情| 亚洲网址在线观看| 俄罗斯av网站| 久久手机免费观看| 亚洲欧美在线综合| 欧美日韩久久久久| 欧美日韩一区二区三区免费| 免费看电影在线| 免费成人在线网站| 日本黄色片一级片| 久久99精品国产| 成人在线视频网站| 国产精品99久久久久久董美香 | 欧洲vs亚洲vs国产| 国产精品一区二区三区不卡 | 国模精品视频一区二区三区| 激情小视频在线观看| 国产成人精品影视| 欧美亚洲成人网| 在线观看涩涩| 中文乱码免费一区二区| 国产精品国产| 欧美老肥妇做.爰bbww| 少妇免费毛片久久久久久久久| 777午夜精品电影免费看| 日韩欧美aaa| 香蕉视频色版| 日韩中文在线中文网三级| 人人网欧美视频| 日本在线观看一区二区| 久久天天做天天爱综合色| 香蕉视频在线观看免费| 亚洲精品视频免费在线观看| 成人影视亚洲图片在线| 黄色免费高清视频| 国产欧美亚洲日本| 啪啪免费视频一区| 粉嫩欧美一区二区三区高清影视| 久久久久久久久久久99| 欧美成人黑人猛交| 久久婷婷开心| 国产片一区二区三区| 三级在线看中文字幕完整版| 国产欧美在线一区二区| 中文字幕在线观看一区二区| 蜜桃视频在线观看播放| 亚洲人在线视频| 美女一区二区视频| 色欧美激情视频在线| 国产欧美日韩在线观看视频| 亚洲三级电影全部在线观看高清| 免费在线小视频| 国产又爽又黄ai换脸| 欧美日韩视频专区在线播放| 日韩伦理一区| 啊啊啊射了视频网站| 久久伊人精品天天| 国产精品二三区| 日韩大片在线免费观看| 东北一级毛片| 国产一区二区视频在线免费观看| 色婷婷精品久久二区二区蜜臀av| 欧美日本精品| 久草免费在线| 欧美少妇xxxx| 麻豆国产一区二区| 玩弄中年熟妇正在播放| 欧美性生活一级片| 伊人久久男人天堂| 国产精品电影| 五月天丁香婷| 91超碰这里只有精品国产| 3d玉蒲团在线观看| 成人美女视频在线观看18| 99免在线观看免费视频高清| 亚洲一区二区中文| 色av成人天堂桃色av| 95av在线视频| 欧美精品一级二级| 欧美淫片网站| 亚洲天堂网站| 国产成人综合美国十次| 日本精品免费| 五月丁香综合缴情六月小说| 色婷婷综合久色| 欧美精品www在线观看| 狂野欧美一区| 夜夜嗨av一区二区三区中文字幕| 免费在线一级视频| 欧美做受69| 全黄性性激高免费视频| 国产日韩精品入口| 亚洲一级电影| 尤物在线观看一区| 国产精品黄色| 最近2019年日本中文免费字幕 | 久久精品91久久香蕉加勒比 | 手机av免费在线| 免费**毛片在线| 国产美女av| 亚洲精品成人| 91麻豆精品| 亚洲承认视频| 国产激情视频一区二区三区欧美 | 粉嫩老牛aⅴ一区二区三区| 亚洲精品久久7777| 亚洲激情一二三区| 欧美激情资源网| 欧美国产免费| 一区二区亚洲精品| 久久精品国产www456c0m| 日韩 欧美一区二区三区| 国产精品一二区| 国产91精品免费| 国产精品成人国产| 久久av综合网| 99久久精品免费看国产一区二区三区| 日韩欧美专区在线| 欧美一区91| 精品久久久久久久久久久久久久久 | 99精品在线| 黑人操亚洲人| 日韩影院在线观看| 黄色免费在线看| 美日韩黄色片| 国模精品一区二区| 538在线观看| 成人午夜大片| 欧美午夜久久| eeuss国产一区二区三区| 成人免费va视频| 亚洲综合久久久久| 欧美成人艳星乳罩| 午夜精品一区二区三区在线 | wwwav91com| av在线麻豆| 91麻豆精品国产91久久久平台| 久久不射网站| av亚洲产国偷v产偷v自拍| 91精品福利在线| 午夜精品一区二区三区在线播放 | 成人三级伦理片| 亚洲五码中文字幕| 亚洲免费高清视频| 国产乱码精品一区二区三区日韩精品| 日韩中字在线观看| 欧美日本一道| 免费成人蒂法| 国产不卡视频在线播放| 黑人欧美xxxx| 欧美亚洲视频在线观看| 一本色道婷婷久久欧美| 国产国语**毛片高清视频| 精品国产欧美| 粉嫩aⅴ一区二区三区四区五区| 日本久久一区二区三区| 婷婷五月色综合| 国产精品中文字幕一区二区三区| 亚洲色成人www永久在线观看| 91网页在线看| 伊人久久亚洲| 天天插综合网| 夜夜亚洲天天久久| 久久成年人免费电影| 在线观看日韩片| 国产极品人妖在线观看| 亚洲精选在线| 亚洲综合色自拍一区| 欧美成人精品1314www| 国产精品一区二区三区免费| 中文字幕在线网| 国产日韩精品视频一区二区三区 | 91精品免费视频| 性史性dvd影片农村毛片| 精品精品国产毛片在线看| 亚洲免费毛片网站| 亚洲欧美综合区自拍另类| 国内少妇毛片视频| 欧美一级二级三级视频| 亚洲乱码精品一二三四区日韩在线| 午夜精品久久久久久久久久久久| 伊人资源视频在线| 亚洲精品怡红院| 亚洲福利精品| 久久久久久国产精品| 久久精品日产第一区二区三区乱码| 欧美特大特白屁股xxxx| 精品国产31久久久久久| 国产午夜大地久久| 亚洲尤物影院| 国产欧美韩国高清| 人人爱人人干婷婷丁香亚洲|