国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

達摩院推出多智能體框架ReasonMed,打造醫學推理數據生成新范式

人工智能 新聞
ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式,并在 Hugging Face 與社區獲得了廣泛關注。

本文第一作者是阿里巴巴達摩院研究實習生孫雨,他的主要研究興趣方向是Medical Reasoning LM。本文通訊作者是阿里巴巴達摩院資深專家徐挺洋博士。 

在人工智能領域,推理語言模型(RLM)雖然在數學與編程任務中已展現出色性能,但在像醫學這樣高度依賴專業知識的場景中,一個亟待回答的問題是:復雜的多步推理會幫助模型提升醫學問答能力嗎?要回答這個問題,需要構建足夠高質量的醫學推理數據,當前醫學推理數據的構建存在以下挑戰:

數據匱乏:現有醫學領域思維鏈數據規模較少,且缺乏一個流水線來批量構建一個高質量大規模醫學推理數據集;

來源單一:現有數據集多依賴單一模型生成,未能結合不同預訓練模型的知識域差異,豐富和探索多樣化的推理路徑;

構建數據成本高:構建高質量、大規模醫學推理數據集往往需要調用大模型生成和人工參與驗證,計算和人力成本都非常高昂,難以支撐百萬級規模的擴展。

缺乏有效性驗證:缺乏系統性實驗來對比「詳細解說診斷思維」與「直接給出結論」兩種訓練策略的優劣。

因此,我們亟需探索更科學的方法,為模型注入權威醫學知識、擴展其知識邊界,并生成更嚴謹、高質量的多步推理路徑。針對上述挑戰,ReasonMed 提出一套完整的醫療推理數據生成解決方案:

多源知識的整合:從四個權威醫學問答基準(MedQA、MMLU、PubMedQA、MedMCQA)匯聚約 19.5 萬醫學問題,覆蓋廣泛的專業知識面。

多模型的數據構建:通過引入多個專有模型,共同生成并驗證醫療推理路徑,多模型互補與交叉驗證提升了知識覆蓋與邏輯一致性,更好的構建規?;腋哔|量的醫學推理數據。

基于多智能體交互的多維驗證和優化:設計「Easy-Medium-Difficult」分層管線,根據驗證通過率動態選擇不同處理策略。通過多智能體交互的方式來對醫學推理數據的邏輯一致性、答案正確性和醫學事實性多維度進行驗證優化,實現高質量與低成本的平衡。

推理路徑注入和精煉:引入推理路徑注入與自動化精煉機制,以提升邏輯連貫性與知識準確度。同時對于每條推理樣本保留完整的多步推理鏈(CoT)與由響應摘要器生成的簡明答案(Response),實現推理過程與最終結論的雙重監督。

基于上述框架,阿里巴巴達摩院聯合多家機構提出醫學推理數據生成新范式 ReasonMed,并開源百萬級高質量數據集 ReasonMed370K。該范式通過多智能體協作、多溫度采樣與逐步校驗,動態調用不同參數模型,既保證推理質量與知識注入,又顯著提升數據多樣性。

基于此數據集訓練微調的 ReasonMed-7B/14B 在多項權威醫學問答基準上(PubMedQA 上性能:82.0%)超越更大規模模型(LLaMA3.1-70B:77.4%),充分驗證了「小模型 + 高質量數據」的潛力。同時 ReasonMed 也在 EMNLP 2025 上以高分(9 分)被接收。 

  • 論文鏈接:https://arxiv.org/abs/2506.09513
  • Hugging Face:https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
  • Code:https://github.com/alibaba-damo-academy/ReasonMed

基于多智能體協作的醫療推理數據的構建

ReasonMed 多智能體系統介紹

ReasonMed 的多智能體體系由多個專門角色(Agents)組成,每個 Agent 負責不同階段的推理生成、驗證與優化,共同構建高質量醫學推理數據集。下面是 ReasonMed 中各個組件的功能介紹:

  • CoT Generator(推理生成 Agent):包含多種不同大語言模型(Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B),通過在不同溫度配置下生成多條推理路徑,形成多樣化的推理語料。這種多模型、跨溫度的設計使 ReasonMed 能充分結合不同模型的知識優勢與風格差異,既豐富推理模式,也增強數據的邏輯多樣性。
  • Verifier(驗證 Agent):評估每條推理鏈的正確性、臨床要點識別、邏輯一致性與醫學事實準確性。輸出結構化結果(Correct/Error + 原因),為后續篩選與修正提供依據。
  • Response Summarizer(摘要 Agent):將復雜的 CoT 推理提煉為簡潔、符合醫學問答風格的總結回答,使數據同時具備推理深度與可讀性。
  • Quality Ranker(質量排序 Agent):對通過驗證的多條正確 CoT 進行評分與排序,選出前兩條質量最高的推理路徑(Top-2),確保訓練數據的代表性與多樣性。
  • Error Refiner(錯誤修正 Agent):聚焦難樣本,基于驗證反饋識別邏輯或事實錯誤,并調用更強模型進行針對性修正,以保持推理鏈邏輯完整性和事實準確性。
  • Score Evaluator(評分評估 Agent):量化不同階段推理優化的效果,評估修正后樣本的整體提升幅度與數據集質量,形成閉環反饋。 ReasonMed 的多智能體系統通過「生成-驗證-排序-修正-評估」的閉環流程,將多個模型的專長整合為一個高可靠、可擴展的醫學推理數據構建體系。

數據生成流程

基于以上的多智能體系統,ReasonMed 整個醫療推理數據生成過程分為以下三個步驟:

  • 數據收集(Data Collection)

ReasonMed 首先從四個權威醫學問答數據集(MedQA、MedMCQA、PubMedQA、MMLU)收集 19.5 萬個醫學問題,構建初始問題庫。這些問題覆蓋解剖學、臨床知識、遺傳學等多個子領域,為多模型協同生成提供廣泛知識基礎。

  • 多智能體推理生成與驗證(Multi-Agent CoT Generation & Validation)

在該階段,CoT Generator 針對每個問題以不同溫度參數進行采樣,共生成 9 條多步推理鏈,覆蓋從直接推斷到深度分析的多層邏輯,隨后由 Verifier 智能體協同完成驗證。 這一流程實現了從多模型輸出到結構化、多維驗證的知識融合,確保了生成數據在多樣性與正確性上的平衡,為后續分層精煉與高質量醫學推理數據集的構建奠定了基礎。

  • 分層優化與推理精煉(CoT Pipeline Refinement)

根據 Verifier 驗證后統計到的推理鏈錯誤數量,ReasonMed 設計了 Easy / Medium / Difficult 三條 Pipeline:

  • Easy Pipeline(9 條推理鏈中有 0–4 個錯誤):對于驗證通過率高的問題,直接由 Quality Ranker 選出 Top-2 優質 CoT 作為最終樣本;
  • Medium Pipeline(9 條推理鏈中有 5–7 個錯誤):存在部分邏輯或事實性錯誤的問題,調用 Error Refiner 基于 Verifier 的反饋進行針對性修正與細粒度補充,強化邏輯完整性;
  • Difficult Pipeline(9 條推理鏈中有 8–9 個錯誤):錯誤率極高,則調用更強模型(GPT-o1)重新生成完整推理鏈,相當于由專家重新診斷并開具「二次報告」。 該分層機制顯著提升了數據一致性與可靠性。通過在不同難度層面引入差異化處理,ReasonMed 成功在保持高精度的同時,將整體數據構建成本降低約 73%,實現高質量與低成本的統一。

質量評估與數據匯總

我們通過 Score Evaluator,基于邏輯連貫性(coherence)、醫學事實一致性(factual fidelity)、選項分析完整性(option analysis)等方面對樣本進行 0–10 分量化評分,驗證各階段精煉帶來的質量提升。

經過這一全流程篩選與優化后,最終形成 37 萬條高質量醫學推理樣本(ReasonMed370K),用于后續模型訓練與評估。基于同樣的評分邏輯,我們也對比了生成的數據和當前公開醫學推理數據的質量:

結果表明,ReasonMed 在評分均值上顯著優于現有公開數據集,驗證了 ReasonMed 框架的有效性。

為了進一步分析「顯式推理」與「總結式回答」等不同的思維模式在醫學大模型訓練中的貢獻,我們從同一數據源中抽取并拆分出三個變體:

  • CoTMed370K 保留原始的詳細推理軌跡,重點訓練模型復現多步推理過程與思維邏輯,使模型學習復雜醫學推理的鏈式結構;
  • ResponseMed370K 僅保留由 Response Summarizer 生成的精煉結論部分,用于訓練模型在保留關鍵信息的同時生成簡潔、臨床友好的回答。
  • ReasonMed370K 包含完整的多步推理鏈以及由多智能體生成的簡明答案(Response)

ReasonMed-7B / 14B 模型效果評估

為了驗證生成數據對于模型構建的貢獻,我們基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 進行了微調構建了三族模型 ReasonMed-7/14B,ResponseMed-7B 和 CoTMed-7B/14B。我們和當前的主流醫療/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 數據集上進行了對比。得到以下結論:

  • 基于 ReasonMed370K 訓練的小模型效果可比甚至超越 70B 級別模型

在多個權威醫學問答基準(包括 PubMedQA、MedMCQA、MMLU-Med)上,ReasonMed-7B 展現了顯著優勢。

其中,在 PubMedQA 上達到 82.0% 的準確率,超過了 LLaMA3.1-70B 的 77.4%;在 MedMCQA 與 MMLU 醫學子集上也表現穩定提升。

進一步擴展至 14B 參數規模后,ReasonMed-14B 的整體準確率達到 72.8%,相較于 Qwen2.5-14B 提升 3.8%(72.8% vs 69.0%),并在總體性能上超越 Qwen2.5-32B(72.6%),與 LLaMA3.1-70B(72.9%)幾乎持平。 

這表明 ReasonMed 的「多智能體生成 + 分層優化」策略具備強大的可擴展性——即便是中小規模模型,也能在醫學推理任務中實現與超大模型相當的表現。

  • 融合推理路徑與總結答案的訓練策略效果最佳

為了分析不同數據類型對模型推理能力的影響,團隊基于同一底座(Qwen2.5-7B)訓練了三個版本:

CoTMed-7B:學習完整推理路徑,強調邏輯鏈條復現;

ResponseMed-7B:僅學習簡明答案,注重輸出的準確性與簡潔性; 

ReasonMed-7B:結合推理路徑與總結式答案的混合訓練策略。 

結果顯示,ReasonMed-7B 的融合策略效果最佳,在綜合準確率上達 69.6%,分別超越 CoTMed-7B(69.1%)和 ResponseMed-7B(67.0%)。同時,其生成輸出在邏輯深度與表達簡潔度之間取得了良好平衡,既具可解釋性,又具實用性。

這驗證了 ReasonMed 的核心理念:顯式推理鏈的學習能顯著增強模型的泛化推理能力,而「推理 + 總結」融合策略是醫學 QA 領域更優的訓練路徑。

  • 基于多智能體的分層處理策略顯著降低思維鏈路生成成本,兼顧質量與效率

同時我們也驗證了,ReasonMed 的分層優化機制(Easy / Medium / Difficult Pipeline)在確保數據質量的同時顯著降低了數據構建成本。 

若完全依賴最先進的大模型 API 生成 37 萬條復雜推理鏈,成本預計在 16,631 美元;而在 ReasonMed 的實際設計中,僅約 2.56% 的樣本進入最高難度流程,需調用更強模型,其余問題均由中等規模模型完成。 在這一策略下,項目總成本約 4,552 美元(o1 API 推理花費 3,595 美元),實現了 70% 以上的成本節省。 

這種「難題精修、易題高效」的分層機制,在保證推理鏈質量與一致性的前提下,實現了高性價比的數據構建,為大規模推理數據的可持續生產提供了可復制模板。

項目意義和展望

ReasonMed 項目的推出,為醫學 AI 研究提供了新的范式,其核心價值主要體現在以下幾個方面:

填補醫學推理數據空白:ReasonMed370K 提供了當前業界規模最大、質量最高的開源醫學推理數據集,極大緩解了醫學領域數據匱乏的問題,為后續研究和應用提供了堅實可靠的基礎。

驗證了顯式多步推理在醫療模型的訓練的關鍵作用:通過系統性地驗證顯式推理路徑對模型性能提升的關鍵作用,ReasonMed 明確了知識密集型 AI 的訓練方法論,為未來 AI 模型的研發提供了清晰的實踐指南。

推動「小模型 + 高質量數據」路線:在特定專業領域,小模型搭配高質量數據可顯著超越更大規模模型的性能,可以有效降低了醫療 AI 工具研發的成本門檻。 

低成本,標準化的可擴展思維鏈生成框架:ReasonMed 框架可以遷移至其他知識密集領域(如生命科學,材料科學等),為構建特定領域的數據集提供了參考,具有跨領域應用的潛力。 

同時,ReasonMed 相關技術也用到了達摩院多模態醫療大模型 Lingshu[1] 的構建中。接下來,我們計劃進一步擴展數據覆蓋的深度與廣度,探索如影像診斷、多模態理解、醫學工具調用等更復雜的醫學推理場景。同時,我們也希望通過開放協作,讓更多研究者參與數據完善與模型優化,共同建立一個持續演化、可信可復用的醫學推理生態。

社區反饋

ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式,并在 Hugging Face 與社區獲得了廣泛關注。論文發布當天即登上 Hugging Face「Paper of the Day」榜首,并獲得 Hugging Face CEO 在 X 平臺的轉發與推薦,引發了業內研究者與開發者的熱烈討論。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-22 15:06:52

2025-06-30 05:30:00

2025-08-25 08:45:00

模型代碼開源

2021-08-13 14:54:16

開源技術 開發

2025-05-23 08:47:00

2023-06-06 14:16:06

ChatGPTAI

2025-12-05 08:47:00

2024-10-15 17:28:05

2025-09-23 03:00:00

2024-04-19 14:28:21

聯想AI PC

2022-12-09 14:07:11

框架開源

2024-12-20 11:15:25

2022-05-05 15:02:26

機器學習人工智能開源

2025-07-14 08:42:00

開發模型圖像生成

2024-11-14 10:40:00

智能體模型

2025-11-21 09:42:51

2025-08-11 18:09:37

AI模型開源

2025-03-11 13:49:20

2023-05-04 15:53:34

強化學習開發

2025-09-04 11:58:42

點贊
收藏

51CTO技術棧公眾號

99在线精品观看| 色网视频在线| 羞羞视频在线观看免费| 亚洲一级片网站| 欧美日韩福利| 欧美成人第一页| 天堂8中文在线| 亚洲福利一区二区| 日韩欧美国产综合在线| 精品久久久久久久久久久院品网 | 亚洲黄色成人| 久久99青青精品免费观看| 18视频在线观看网站| 亚洲精品国产精品乱码不99| 亚洲乱码日产精品bd在线观看| 在线看片一区| 成人精品一区二区三区电影免费| 久久精品资源| 日韩激情视频在线播放| 中文字幕在线播放| 精品成人久久av| 99re免费99re在线视频手机版| 97在线中文字幕| 99久久999| 亚洲天堂av在线免费| 羞羞网站在线免费观看| 在线观看日韩高清av| 在线观看黄色片| 亚洲一区二区在线免费观看视频| 久久婷婷国产综合精品青草| 免费男同深夜夜行网站| 亚洲精品蜜桃乱晃| 欧美久久久久久一卡四| 日韩一区二区三区在线看| 宅男噜噜噜66一区二区66| 亚洲一区二区三区免费在线观看| 日韩一区二区三区电影在线观看 | 国产乱子伦视频一区二区三区| 国产欧美日韩精品在线观看 | 欧美色道久久88综合亚洲精品| 国产精品无码乱伦| 9a蜜桃久久久久久免费| 欧美自拍一区| 成人在线一区二区三区| 国产老女人精品毛片久久| 日韩av观看网址| 亚洲国产欧美国产第一区| 中文字幕精品av| 亚洲午夜天堂| 伊人成人开心激情综合网| 久久男人av资源站| 亚洲激情视频网| 久久99久久99精品免观看软件| 亚洲国产小视频| av免费在线视| 亚洲开心激情网| 成人国产一区| 久久视频这里只有精品| 91p九色成人| www.99久久热国产日韩欧美.com| yw.尤物在线精品视频| 日韩中文字幕在线免费观看| 韩国三级成人在线| 日本一本a高清免费不卡| 色135综合网| 国产视频99| 麻豆国产精品777777在线| 国产精品无码免费专区午夜| 久久久久久9999| 一级毛片在线播放| 在线播放91灌醉迷j高跟美女| 国产理论电影在线| 精品国内亚洲在观看18黄| 国产欧美日韩免费观看| 国新精品乱码一区二区三区18| 美国十次了思思久久精品导航 | 亚洲人成在线播放网站岛国| 久久久亚洲精华液精华液精华液 | 欧美色精品在线视频| av影视在线| 欧美激情三级免费| 欧美日韩亚洲一区| 国产1区2区3区中文字幕| 国产精品福利在线播放| 高清中文字幕一区二区三区| 精品视频一区在线视频| 婷婷综合一区| 欧美日韩在线一区二区三区| 久久蜜桃av一区精品变态类天堂| 青檬在线电视剧在线观看| 欧美大胆人体bbbb| 日产精品99久久久久久| 成人影院在线观看| 久久中文字幕在线| 欧美午夜在线| 日本丰满少妇xxxx| 大荫蒂欧美视频另类xxxx| 欧美无毛视频| 国产主播精品在线| 成人视屏免费看| 精品视频三区| 中文字幕亚洲无线码a| 91精品一区国产高清在线gif| 免费观看黄色的网站| 亚洲成人手机在线| 国产成人免费| 久久亚洲免费| 一区二区三区中文字幕电影| 黑人巨大精品| 国产精品毛片一区视频| 国产女主播一区| 超碰资源在线| 2014国产精品| 国产拍揄自揄精品视频麻豆| 最新av在线播放| 成人网在线免费观看| 99国产欧美另类久久久精品 | 污视频在线看操| 久久精品国产成人| 日本va欧美va欧美va精品| 裸体免费网站| 久久成人精品电影| 六月丁香婷婷久久| 国产小视频福利在线| 91精品国产乱码久久久久久久久| 国产在线观看免费一区| 888av在线| 国产精品直播网红| 中文字幕在线观看不卡| 91麻豆精品国产综合久久久| 中文字幕一区二区三区四区五区六区| 欧美性xxxxx极品| 蜜臀久久99精品久久一区二区| 福利在线一区二区| 精品国产乱码久久久久久老虎| 国产一区二区视频免费在线观看 | 亚洲人免费视频| 久久亚洲一区二区三区明星换脸 | 日本一区二区三区播放| 青青草视频在线免费播放| http;//www.99re视频| 欧美一区三区二区在线观看| 精品一区中文字幕| av在线免费播放网站| 国产噜噜噜噜久久久久久久久| 国产综合色精品一区二区三区| 久久人人超碰| 中文字幕色呦呦| 精品少妇一区二区三区日产乱码| 欧美日本不卡高清| 伦理片一区二区三区| 成人a在线视频| 天天av天天翘天天综合网色鬼国产| 欧美精品中文字幕亚洲专区| 污污的网站18| 国内精品久久久久久久| 国产欧美一区二区三区在线看蜜臀| 成人网ww555视频免费看| 国产成人精品免费看在线播放| 四虎4hu永久免费入口| 精品免费国产一区二区三区四区| 久久精品人人| 久草免费在线色站| 中文字幕色一区二区| 亚洲天堂精品在线| 不卡视频在线看| 亚洲日本va| 日韩三级久久| 日本在线视频一区二区三区| 久久人体大尺度| 亚洲 激情 在线| 国产a级黄色大片| www.一区二区三区| 亚洲欧美综合区自拍另类| 亚洲国产wwwccc36天堂| 成人毛片视频在线观看| 国产情侣一区| 亚洲电影影音先锋| 激情久久五月| 九九99久久精品在免费线bt| 成人黄色免费观看| a视频在线播放| 免费成人高清| 黄色高清无遮挡| 国产 日韩 欧美在线| 黄网站色视频免费观看| 欧美一区二区三区免费视| 日韩欧美成人一区| 亚洲欧美日韩国产综合| 成人丝袜18视频在线观看| 亚洲视频大全| 精品国产aⅴ| 日本免费久久| 成人黄色激情网站| 欧美黑人在线观看| 91免费黄视频| 一区二区三区 欧美| 日本最黄视频| 国产三级在线免费观看| 日韩久久一区|