国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<samp id="ntx1a"><label id="ntx1a"><label id="ntx1a"></label></label></samp>

<fieldset id="ntx1a"><optgroup id="ntx1a"></optgroup></fieldset><fieldset id="ntx1a"><optgroup id="ntx1a"></optgroup></fieldset>

<bdo id="ntx1a"><pre id="ntx1a"></pre></bdo>

<fieldset id="ntx1a"></fieldset>

<center id="ntx1a"><acronym id="ntx1a"></acronym></center>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

達摩院推出多智能體框架ReasonMed，打造醫學推理數據生成新范式

2025-11-04 08:43:00

人工智能新聞

ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式，并在 Hugging Face 與社區獲得了廣泛關注。

本文第一作者是阿里巴巴達摩院研究實習生孫雨，他的主要研究興趣方向是Medical Reasoning LM。本文通訊作者是阿里巴巴達摩院資深專家徐挺洋博士。

在人工智能領域，推理語言模型（RLM）雖然在數學與編程任務中已展現出色性能，但在像醫學這樣高度依賴專業知識的場景中，一個亟待回答的問題是：復雜的多步推理會幫助模型提升醫學問答能力嗎？要回答這個問題，需要構建足夠高質量的醫學推理數據，當前醫學推理數據的構建存在以下挑戰：

數據匱乏：現有醫學領域思維鏈數據規模較少，且缺乏一個流水線來批量構建一個高質量大規模醫學推理數據集；

來源單一：現有數據集多依賴單一模型生成，未能結合不同預訓練模型的知識域差異，豐富和探索多樣化的推理路徑；

構建數據成本高：構建高質量、大規模醫學推理數據集往往需要調用大模型生成和人工參與驗證，計算和人力成本都非常高昂，難以支撐百萬級規模的擴展。

缺乏有效性驗證：缺乏系統性實驗來對比「詳細解說診斷思維」與「直接給出結論」兩種訓練策略的優劣。

因此，我們亟需探索更科學的方法，為模型注入權威醫學知識、擴展其知識邊界，并生成更嚴謹、高質量的多步推理路徑。針對上述挑戰，ReasonMed 提出一套完整的醫療推理數據生成解決方案：

多源知識的整合：從四個權威醫學問答基準（MedQA、MMLU、PubMedQA、MedMCQA）匯聚約 19.5 萬醫學問題，覆蓋廣泛的專業知識面。

多模型的數據構建：通過引入多個專有模型，共同生成并驗證醫療推理路徑，多模型互補與交叉驗證提升了知識覆蓋與邏輯一致性，更好的構建規?；腋哔|量的醫學推理數據。

基于多智能體交互的多維驗證和優化：設計「Easy-Medium-Difficult」分層管線，根據驗證通過率動態選擇不同處理策略。通過多智能體交互的方式來對醫學推理數據的邏輯一致性、答案正確性和醫學事實性多維度進行驗證優化，實現高質量與低成本的平衡。

推理路徑注入和精煉：引入推理路徑注入與自動化精煉機制，以提升邏輯連貫性與知識準確度。同時對于每條推理樣本保留完整的多步推理鏈（CoT）與由響應摘要器生成的簡明答案（Response），實現推理過程與最終結論的雙重監督。

基于上述框架，阿里巴巴達摩院聯合多家機構提出醫學推理數據生成新范式 ReasonMed，并開源百萬級高質量數據集 ReasonMed370K。該范式通過多智能體協作、多溫度采樣與逐步校驗，動態調用不同參數模型，既保證推理質量與知識注入，又顯著提升數據多樣性。

基于此數據集訓練微調的 ReasonMed-7B/14B 在多項權威醫學問答基準上（PubMedQA 上性能：82.0%）超越更大規模模型（LLaMA3.1-70B：77.4%），充分驗證了「小模型 + 高質量數據」的潛力。同時 ReasonMed 也在 EMNLP 2025 上以高分（9 分）被接收。

論文鏈接：https://arxiv.org/abs/2506.09513
Hugging Face：https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
Code：https://github.com/alibaba-damo-academy/ReasonMed

基于多智能體協作的醫療推理數據的構建

ReasonMed 多智能體系統介紹

ReasonMed 的多智能體體系由多個專門角色（Agents）組成，每個 Agent 負責不同階段的推理生成、驗證與優化，共同構建高質量醫學推理數據集。下面是 ReasonMed 中各個組件的功能介紹：

CoT Generator（推理生成 Agent）：包含多種不同大語言模型（Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B），通過在不同溫度配置下生成多條推理路徑，形成多樣化的推理語料。這種多模型、跨溫度的設計使 ReasonMed 能充分結合不同模型的知識優勢與風格差異，既豐富推理模式，也增強數據的邏輯多樣性。
Verifier（驗證 Agent）：評估每條推理鏈的正確性、臨床要點識別、邏輯一致性與醫學事實準確性。輸出結構化結果（Correct/Error + 原因），為后續篩選與修正提供依據。
Response Summarizer（摘要 Agent）：將復雜的 CoT 推理提煉為簡潔、符合醫學問答風格的總結回答，使數據同時具備推理深度與可讀性。
Quality Ranker（質量排序 Agent）：對通過驗證的多條正確 CoT 進行評分與排序，選出前兩條質量最高的推理路徑（Top-2），確保訓練數據的代表性與多樣性。
Error Refiner（錯誤修正 Agent）：聚焦難樣本，基于驗證反饋識別邏輯或事實錯誤，并調用更強模型進行針對性修正，以保持推理鏈邏輯完整性和事實準確性。
Score Evaluator（評分評估 Agent）：量化不同階段推理優化的效果，評估修正后樣本的整體提升幅度與數據集質量，形成閉環反饋。 ReasonMed 的多智能體系統通過「生成-驗證-排序-修正-評估」的閉環流程，將多個模型的專長整合為一個高可靠、可擴展的醫學推理數據構建體系。

數據生成流程

基于以上的多智能體系統，ReasonMed 整個醫療推理數據生成過程分為以下三個步驟：

數據收集（Data Collection）

ReasonMed 首先從四個權威醫學問答數據集（MedQA、MedMCQA、PubMedQA、MMLU）收集 19.5 萬個醫學問題，構建初始問題庫。這些問題覆蓋解剖學、臨床知識、遺傳學等多個子領域，為多模型協同生成提供廣泛知識基礎。

多智能體推理生成與驗證（Multi-Agent CoT Generation & Validation）

在該階段，CoT Generator 針對每個問題以不同溫度參數進行采樣，共生成 9 條多步推理鏈，覆蓋從直接推斷到深度分析的多層邏輯，隨后由 Verifier 智能體協同完成驗證。這一流程實現了從多模型輸出到結構化、多維驗證的知識融合，確保了生成數據在多樣性與正確性上的平衡，為后續分層精煉與高質量醫學推理數據集的構建奠定了基礎。

分層優化與推理精煉（CoT Pipeline Refinement）

根據 Verifier 驗證后統計到的推理鏈錯誤數量，ReasonMed 設計了 Easy / Medium / Difficult 三條 Pipeline：

Easy Pipeline（9 條推理鏈中有 0–4 個錯誤）：對于驗證通過率高的問題，直接由 Quality Ranker 選出 Top-2 優質 CoT 作為最終樣本；
Medium Pipeline（9 條推理鏈中有 5–7 個錯誤）：存在部分邏輯或事實性錯誤的問題，調用 Error Refiner 基于 Verifier 的反饋進行針對性修正與細粒度補充，強化邏輯完整性；
Difficult Pipeline（9 條推理鏈中有 8–9 個錯誤）：錯誤率極高，則調用更強模型（GPT-o1）重新生成完整推理鏈，相當于由專家重新診斷并開具「二次報告」。該分層機制顯著提升了數據一致性與可靠性。通過在不同難度層面引入差異化處理，ReasonMed 成功在保持高精度的同時，將整體數據構建成本降低約 73%，實現高質量與低成本的統一。

質量評估與數據匯總

我們通過 Score Evaluator，基于邏輯連貫性（coherence）、醫學事實一致性（factual fidelity）、選項分析完整性（option analysis）等方面對樣本進行 0–10 分量化評分，驗證各階段精煉帶來的質量提升。

經過這一全流程篩選與優化后，最終形成 37 萬條高質量醫學推理樣本（ReasonMed370K），用于后續模型訓練與評估。基于同樣的評分邏輯，我們也對比了生成的數據和當前公開醫學推理數據的質量：

結果表明，ReasonMed 在評分均值上顯著優于現有公開數據集，驗證了 ReasonMed 框架的有效性。

為了進一步分析「顯式推理」與「總結式回答」等不同的思維模式在醫學大模型訓練中的貢獻，我們從同一數據源中抽取并拆分出三個變體：

CoTMed370K 保留原始的詳細推理軌跡，重點訓練模型復現多步推理過程與思維邏輯，使模型學習復雜醫學推理的鏈式結構；
ResponseMed370K 僅保留由 Response Summarizer 生成的精煉結論部分，用于訓練模型在保留關鍵信息的同時生成簡潔、臨床友好的回答。
ReasonMed370K 包含完整的多步推理鏈以及由多智能體生成的簡明答案（Response）

ReasonMed-7B / 14B 模型效果評估

為了驗證生成數據對于模型構建的貢獻，我們基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 進行了微調構建了三族模型 ReasonMed-7/14B，ResponseMed-7B 和 CoTMed-7B/14B。我們和當前的主流醫療/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 數據集上進行了對比。得到以下結論：

基于 ReasonMed370K 訓練的小模型效果可比甚至超越 70B 級別模型

在多個權威醫學問答基準（包括 PubMedQA、MedMCQA、MMLU-Med）上，ReasonMed-7B 展現了顯著優勢。

其中，在 PubMedQA 上達到 82.0% 的準確率，超過了 LLaMA3.1-70B 的 77.4%；在 MedMCQA 與 MMLU 醫學子集上也表現穩定提升。

進一步擴展至 14B 參數規模后，ReasonMed-14B 的整體準確率達到 72.8%，相較于 Qwen2.5-14B 提升 3.8%（72.8% vs 69.0%），并在總體性能上超越 Qwen2.5-32B（72.6%），與 LLaMA3.1-70B（72.9%）幾乎持平。

這表明 ReasonMed 的「多智能體生成 + 分層優化」策略具備強大的可擴展性——即便是中小規模模型，也能在醫學推理任務中實現與超大模型相當的表現。

融合推理路徑與總結答案的訓練策略效果最佳

為了分析不同數據類型對模型推理能力的影響，團隊基于同一底座（Qwen2.5-7B）訓練了三個版本：

CoTMed-7B：學習完整推理路徑，強調邏輯鏈條復現；

ResponseMed-7B：僅學習簡明答案，注重輸出的準確性與簡潔性；

ReasonMed-7B：結合推理路徑與總結式答案的混合訓練策略。

結果顯示，ReasonMed-7B 的融合策略效果最佳，在綜合準確率上達 69.6%，分別超越 CoTMed-7B（69.1%）和 ResponseMed-7B（67.0%）。同時，其生成輸出在邏輯深度與表達簡潔度之間取得了良好平衡，既具可解釋性，又具實用性。

這驗證了 ReasonMed 的核心理念：顯式推理鏈的學習能顯著增強模型的泛化推理能力，而「推理 + 總結」融合策略是醫學 QA 領域更優的訓練路徑。

基于多智能體的分層處理策略顯著降低思維鏈路生成成本，兼顧質量與效率

同時我們也驗證了，ReasonMed 的分層優化機制（Easy / Medium / Difficult Pipeline）在確保數據質量的同時顯著降低了數據構建成本。

若完全依賴最先進的大模型 API 生成 37 萬條復雜推理鏈，成本預計在 16,631 美元；而在 ReasonMed 的實際設計中，僅約 2.56% 的樣本進入最高難度流程，需調用更強模型，其余問題均由中等規模模型完成。在這一策略下，項目總成本約 4,552 美元（o1 API 推理花費 3,595 美元），實現了 70% 以上的成本節省。

這種「難題精修、易題高效」的分層機制，在保證推理鏈質量與一致性的前提下，實現了高性價比的數據構建，為大規模推理數據的可持續生產提供了可復制模板。

項目意義和展望

ReasonMed 項目的推出，為醫學 AI 研究提供了新的范式，其核心價值主要體現在以下幾個方面：

填補醫學推理數據空白：ReasonMed370K 提供了當前業界規模最大、質量最高的開源醫學推理數據集，極大緩解了醫學領域數據匱乏的問題，為后續研究和應用提供了堅實可靠的基礎。

驗證了顯式多步推理在醫療模型的訓練的關鍵作用：通過系統性地驗證顯式推理路徑對模型性能提升的關鍵作用，ReasonMed 明確了知識密集型 AI 的訓練方法論，為未來 AI 模型的研發提供了清晰的實踐指南。

推動「小模型 + 高質量數據」路線：在特定專業領域，小模型搭配高質量數據可顯著超越更大規模模型的性能，可以有效降低了醫療 AI 工具研發的成本門檻。

低成本，標準化的可擴展思維鏈生成框架：ReasonMed 框架可以遷移至其他知識密集領域（如生命科學，材料科學等），為構建特定領域的數據集提供了參考，具有跨領域應用的潛力。

同時，ReasonMed 相關技術也用到了達摩院多模態醫療大模型 Lingshu[1] 的構建中。接下來，我們計劃進一步擴展數據覆蓋的深度與廣度，探索如影像診斷、多模態理解、醫學工具調用等更復雜的醫學推理場景。同時，我們也希望通過開放協作，讓更多研究者參與數據完善與模型優化，共同建立一個持續演化、可信可復用的醫學推理生態。

社區反饋

ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式，并在 Hugging Face 與社區獲得了廣泛關注。論文發布當天即登上 Hugging Face「Paper of the Day」榜首，并獲得 Hugging Face CEO 在 X 平臺的轉發與推薦，引發了業內研究者與開發者的熱烈討論。

責任編輯：張燕妮來源：機器之心

智能體數據推理

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

99在线精品观看| 色网视频在线| 羞羞视频在线观看免费| 亚洲一级片网站| 欧美日韩福利| 欧美成人第一页| 天堂8中文在线| 亚洲福利一区二区| 日韩欧美国产综合在线| 精品久久久久久久久久久院品网 | 亚洲黄色成人| 久久99青青精品免费观看| 18视频在线观看网站| 亚洲精品国产精品乱码不99| 亚洲乱码日产精品bd在线观看| 在线看片一区| 成人精品一区二区三区电影免费| 久久精品资源| 日韩激情视频在线播放| 中文字幕在线播放| 精品成人久久av| 99re免费99re在线视频手机版| 97在线中文字幕| 99久久999| 亚洲天堂av在线免费| 羞羞网站在线免费观看| 在线观看日韩高清av| 在线观看黄色片| 亚洲一区二区在线免费观看视频| 久久婷婷国产综合精品青草| 免费男同深夜夜行网站| 亚洲精品蜜桃乱晃| 欧美久久久久久一卡四| 日韩一区二区三区在线看| 宅男噜噜噜66一区二区66| 亚洲一区二区三区免费在线观看| 日韩一区二区三区电影在线观看 | 国产乱子伦视频一区二区三区| 国产欧美日韩精品在线观看 | 欧美色道久久88综合亚洲精品| 国产精品无码乱伦| 9a蜜桃久久久久久免费| 欧美自拍一区| 成人在线一区二区三区| 国产老女人精品毛片久久| 日韩av观看网址| 亚洲国产欧美国产第一区| 中文字幕精品av| 亚洲午夜天堂| 伊人成人开心激情综合网| 久久男人av资源站| 亚洲激情视频网| 久久99久久99精品免观看软件| 亚洲国产小视频| av免费在线视| 亚洲开心激情网| 成人国产一区| 久久视频这里只有精品| 91p九色成人| www.99久久热国产日韩欧美.com| yw.尤物在线精品视频| 日韩中文字幕在线免费观看| 韩国三级成人在线| 日本一本a高清免费不卡| 色135综合网| 国产视频99| 麻豆国产精品777777在线| 国产精品无码免费专区午夜| 久久久久久9999| 一级毛片在线播放| 在线播放91灌醉迷j高跟美女| 国产理论电影在线| 精品国内亚洲在观看18黄| 国产欧美日韩免费观看| 国新精品乱码一区二区三区18| 美国十次了思思久久精品导航 | 亚洲人成在线播放网站岛国| 久久久亚洲精华液精华液精华液 | 欧美色精品在线视频| av影视在线| 欧美激情三级免费| 欧美日韩亚洲一区| 国产1区2区3区中文字幕| 国产精品福利在线播放| 高清中文字幕一区二区三区| 精品视频一区在线视频| 婷婷综合一区| 欧美日韩在线一区二区三区| 久久蜜桃av一区精品变态类天堂| 青檬在线电视剧在线观看| 欧美大胆人体bbbb| 日产精品99久久久久久| 成人影院在线观看| 久久中文字幕在线| 欧美午夜在线| 日本丰满少妇xxxx| 大荫蒂欧美视频另类xxxx| 欧美无毛视频| 国产主播精品在线| 成人视屏免费看| 精品视频三区| 中文字幕亚洲无线码a| 91精品一区国产高清在线gif| 免费观看黄色的网站| 亚洲成人手机在线| 国产成人免费| 久久亚洲免费| 一区二区三区中文字幕电影| 黑人巨大精品| 国产精品毛片一区视频| 国产女主播一区| 超碰资源在线| 2014国产精品| 国产拍揄自揄精品视频麻豆| 最新av在线播放| 成人网在线免费观看| 99国产欧美另类久久久精品 | 污视频在线看操| 久久精品国产成人| 日本va欧美va欧美va精品| 裸体免费网站| 久久成人精品电影| 六月丁香婷婷久久| 国产小视频福利在线| 91精品国产乱码久久久久久久久| 国产在线观看免费一区| 888av在线| 国产精品直播网红| 中文字幕在线观看不卡| 91麻豆精品国产综合久久久| 中文字幕一区二区三区四区五区六区| 欧美性xxxxx极品| 蜜臀久久99精品久久一区二区| 福利在线一区二区| 精品国产乱码久久久久久老虎| 国产一区二区视频免费在线观看 | 亚洲人免费视频| 久久亚洲一区二区三区明星换脸 | 日本一区二区三区播放| 青青草视频在线免费播放| http;//www.99re视频| 欧美一区三区二区在线观看| 精品一区中文字幕| av在线免费播放网站| 国产噜噜噜噜久久久久久久久| 国产综合色精品一区二区三区| 久久人人超碰| 中文字幕色呦呦| 精品少妇一区二区三区日产乱码| 欧美日本不卡高清| 伦理片一区二区三区| 成人a在线视频| 天天av天天翘天天综合网色鬼国产| 欧美精品中文字幕亚洲专区| 污污的网站18| 国内精品久久久久久久| 国产欧美一区二区三区在线看蜜臀| 成人网ww555视频免费看| 国产成人精品免费看在线播放| 四虎4hu永久免费入口| 精品免费国产一区二区三区四区| 久久精品人人| 久草免费在线色站| 中文字幕色一区二区| 亚洲天堂精品在线| 不卡视频在线看| 亚洲日本va| 日韩三级久久| 日本在线视频一区二区三区| 久久人体大尺度| 亚洲激情在线| 国产a级黄色大片| www.一区二区三区| 亚洲欧美综合区自拍另类| 亚洲国产wwwccc36天堂| 成人毛片视频在线观看| 国产情侣一区| 亚洲电影影音先锋| 激情久久五月| 九九99久久精品在免费线bt| 成人黄色免费观看| a视频在线播放| 免费成人高清| 黄色高清无遮挡| 国产日韩欧美在线| 黄网站色视频免费观看| 欧美一区二区三区免费视| 日韩欧美成人一区| 亚洲欧美日韩国产综合| 成人丝袜18视频在线观看| 亚洲视频大全| 精品国产aⅴ| 日本免费久久| 成人黄色激情网站| 欧美黑人在线观看| 91免费黄视频| 一区二区三区欧美| 日本最黄视频| 国产三级在线免费观看| 日韩久久一区|