国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型

發(fā)布于 2025-6-19 07:42
瀏覽
0收藏


阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型-AI.x社區(qū)

核心速覽

多模態(tài)大型語言模型(MLLMs)在理解常見視覺元素(如風景、家居用品和公共事件)方面展現(xiàn)了令人印象深刻的能力,這主要歸功于其大規(guī)模數(shù)據(jù)集和先進的訓練策略。然而,由于醫(yī)學場景中的數(shù)據(jù)和任務與一般領(lǐng)域存在固有差異,它們在醫(yī)學應用中的有效性仍然有限。具體來說,現(xiàn)有的醫(yī)學MLLMs面臨以下關(guān)鍵限制:(1)對醫(yī)學知識(超出影像學范圍)的覆蓋有限;(2)由于數(shù)據(jù)策展流程不佳,容易產(chǎn)生幻覺;(3)缺乏針對復雜醫(yī)學場景定制的推理能力。為了應對這些挑戰(zhàn),我們首先提出了一個全面的數(shù)據(jù)策展程序,該程序(1)不僅從醫(yī)學影像,還從廣泛的醫(yī)學文本和一般領(lǐng)域數(shù)據(jù)高效獲取豐富的醫(yī)學知識數(shù)據(jù);以及(2)合成準確的醫(yī)學字幕、視覺問答(VQA)和推理樣本。因此,我們構(gòu)建了一個富含廣泛醫(yī)學知識的多模態(tài)數(shù)據(jù)集。在策劃的數(shù)據(jù)基礎(chǔ)上,我們推出了專注于醫(yī)學的MLLM:Lingshu。Lingshu經(jīng)過多階段訓練,以嵌入醫(yī)學專業(yè)知識并逐步提升其解決問題的能力。此外,我們初步探索了應用可驗證獎勵范式的強化學習來增強靈書的醫(yī)學推理能力。同時,我們開發(fā)了MedEvalKit,一個統(tǒng)一的評估框架,它整合了領(lǐng)先的多模態(tài)和文本醫(yī)學基準測試,用于標準化、公平且高效的模型評估。我們在三個基本醫(yī)學任務上評估了Lingshu的表現(xiàn):多模態(tài)問答、基于文本的問答和醫(yī)學報告生成。結(jié)果顯示,Lingshu在大多數(shù)任務上持續(xù)超越現(xiàn)有的開源多模態(tài)模型。此外,我們進行了五個緊密與現(xiàn)實世界場景對齊的案例研究,展示了Lingshu在醫(yī)學背景下實際應用的潛力。

 主頁:??https://alibaba-demo-academy.github.io/lingshu/??

阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型-AI.x社區(qū)

核心速覽

研究背景

  1. 研究問題:這篇文章要解決的問題是如何在多模態(tài)醫(yī)學理解中實現(xiàn)統(tǒng)一的多模態(tài)基礎(chǔ)模型。現(xiàn)有的多模態(tài)大型語言模型(MLLMs)在通用領(lǐng)域表現(xiàn)出色,但在醫(yī)學領(lǐng)域的應用效果有限,主要由于醫(yī)學數(shù)據(jù)與任務的復雜性和特異性。
  2. 研究難點:該問題的研究難點包括:醫(yī)學知識的覆蓋范圍有限,數(shù)據(jù)質(zhì)量參差不齊,缺乏針對復雜醫(yī)學場景的推理能力。
  3. 相關(guān)工作:該問題的研究相關(guān)工作有:將通用LLM或MLLMs與醫(yī)學多模態(tài)數(shù)據(jù)結(jié)合構(gòu)建專用模型,采用蒸餾技術(shù)改進模型性能,以及利用強化學習提高推理能力。

研究方法

這篇論文提出了Lingshu模型用于解決醫(yī)學多模態(tài)理解問題。具體來說,

數(shù)據(jù)收集與合成:首先,提出了一個全面的數(shù)據(jù)收集和合成流程,包括從醫(yī)學影像、醫(yī)學文本和通用領(lǐng)域數(shù)據(jù)中高效獲取豐富的醫(yī)學知識數(shù)據(jù),并生成準確的醫(yī)學字幕、視覺問答(VQA)和推理樣本。

阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型-AI.x社區(qū)

多階段訓練:基于收集的數(shù)據(jù),提出了多階段訓練方法,逐步注入醫(yī)學專業(yè)知識并增強模型的解決問題能力。具體階段包括:淺層醫(yī)學對齊、深層醫(yī)學對齊、醫(yī)學指令調(diào)優(yōu)和醫(yī)學導向的強化學習。

阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型-AI.x社區(qū)

  • 強化學習:初步探索了將可驗證獎勵的強化學習(RLVR)應用于提升Lingshu的醫(yī)學推理能力,開發(fā)了Lingshu-RL版本。
  • 評估框架:提出了MedEvalKit,一個統(tǒng)一的評估框架,整合了主流的多模態(tài)和文本醫(yī)學基準,支持多種問題格式,確保評估的標準化和可重復性。阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型-AI.x社區(qū)

實驗設(shè)計

  1. 數(shù)據(jù)收集:從網(wǎng)絡(luò)中收集了多種開源醫(yī)學多模態(tài)數(shù)據(jù)集、醫(yī)學文本指令數(shù)據(jù)和通用領(lǐng)域數(shù)據(jù)集,并進行嚴格的質(zhì)量過濾和預處理。
  2. 數(shù)據(jù)合成:生成了長形式字幕、基于OCR的指令樣本、VQA實例和蒸餾推理示例,以提高模型的特定能力。
  3. 模型訓練:基于Qwen2.5-VL模型架構(gòu),開發(fā)了7B和32B參數(shù)的Lingshu模型,并通過多階段訓練框架進行訓練。
  4. 評估:使用MedEvalKit框架對Lingshu進行評估,涵蓋多模態(tài)VQA、文本QA和報告生成任務。

結(jié)果與分析

多模態(tài)VQA任務:在七個醫(yī)學多模態(tài)VQA任務上,Lingshu-32B模型的平均得分達到了66.6%,超過了所有其他模型,包括專有模型如GPT-4.1和Claude Sonnet 4。

阿里推出 LingShu AI醫(yī)生:統(tǒng)一多模態(tài)醫(yī)學理解與推理的通用基礎(chǔ)模型-AI.x社區(qū)

  • 文本QA任務:在醫(yī)學文本QA任務上,Lingshu-7B模型在多個基準測試中表現(xiàn)出色,平均準確率達到52.8%,領(lǐng)先于其他開源模型。
  • 報告生成任務:在MIMIC-CXR、CheXpert Plus和IU-Xray三個報告生成基準上,Lingshu-32B模型在大多數(shù)指標上均表現(xiàn)最佳,特別是在IU-Xray任務上,得分接近130.4。
  • 強化學習效果:盡管Lingshu-RL在部分任務上表現(xiàn)出微弱的改進,但整體效果有限,表明當前RLVR訓練在醫(yī)學領(lǐng)域的應用仍需進一步優(yōu)化。

總體結(jié)論

這篇論文提出了Lingshu模型及其多階段訓練框架,解決了醫(yī)學多模態(tài)理解中的關(guān)鍵挑戰(zhàn)。通過全面的實驗驗證,Lingshu在多個醫(yī)學任務上表現(xiàn)出色,顯著優(yōu)于現(xiàn)有開源模型。此外,MedEvalKit評估框架的引入進一步推動了醫(yī)學MLLMs的標準化和可重復性。總體而言,Lingshu和MedEvalKit為醫(yī)學領(lǐng)域的MLLMs提供了一個高性能模型、一個強大的評估工具以及數(shù)據(jù)收集、分階段訓練和評估的經(jīng)驗指南。

論文評價

優(yōu)點與創(chuàng)新

  1. 數(shù)據(jù)收集與合成:提出了一種全面的數(shù)據(jù)收集和合成流程,能夠高效地獲取豐富的醫(yī)學知識數(shù)據(jù),并生成高質(zhì)量的醫(yī)學字幕、問答對和推理樣本。
  2. 多階段訓練:開發(fā)了針對醫(yī)學領(lǐng)域的多階段訓練框架,逐步注入醫(yī)學知識,增強模型的問題解決能力。
  3. 強化學習探索:初步探索了將可驗證獎勵的強化學習(RLVR)應用于提升Lingshu的多模態(tài)醫(yī)學推理能力,開發(fā)了Lingshu-RL版本。
  4. 統(tǒng)一評估框架:提出了MedEvalKit,一個統(tǒng)一的評估框架,整合了主要的多模態(tài)和文本醫(yī)學基準,簡化了模型評估過程,推動了標準化性能評估的發(fā)展。
  5. 實驗驗證:通過嚴格的實驗驗證,Lingshu在多個多模態(tài)和文本醫(yī)學視覺問答任務以及報告生成任務中表現(xiàn)出色,顯著優(yōu)于現(xiàn)有的開源多模態(tài)模型。
  6. 案例研究:進行了五個與實際應用場景緊密相關(guān)的案例研究,展示了Lingshu在實際醫(yī)療應用中的潛力。

不足與反思

  1. 數(shù)據(jù)質(zhì)量和多樣性:盡管收集了大量的醫(yī)學多模態(tài)和文本數(shù)據(jù),但數(shù)據(jù)質(zhì)量和多樣性仍然有限。開源醫(yī)學多模態(tài)數(shù)據(jù)通常存在標注準確性低、圖像分辨率差和模態(tài)分布不均等問題。
  2. 模型性能和泛化能力:盡管Lingshu在多個醫(yī)學基準上取得了有希望的結(jié)果,特別是在問答和報告生成任務中,但與最先進的專有模型相比仍有差距。其在大規(guī)模、更多樣化的醫(yī)學任務和更廣泛的泛化能力方面的探索仍不充分。
  3. 訓練范式和強化學習:盡管驗證了數(shù)據(jù)策略和訓練范式的有效性,但最佳的數(shù)據(jù)混合和訓練配置仍需進一步探索。當前在醫(yī)學背景下的RLVR應用的初步探索效果有限,需要更深入的理解。

關(guān)鍵問題及回答

問題1:Lingshu模型在數(shù)據(jù)收集和合成方面采取了哪些具體措施來確保醫(yī)學知識的全面性和高質(zhì)量?

數(shù)據(jù)收集

  • 從網(wǎng)絡(luò)中收集了多種開源醫(yī)學多模態(tài)數(shù)據(jù)集,包括醫(yī)學字幕數(shù)據(jù)(如LLaVA-Med Alignment、PubMedVision等)和醫(yī)學多模態(tài)指令數(shù)據(jù)(如PathVQA、PMC-VQA等)。
  • 收集了醫(yī)學文本指令數(shù)據(jù),如醫(yī)療事實問答、蒸餾推理數(shù)據(jù)、患者-醫(yī)生對話和一般醫(yī)學指令數(shù)據(jù)。
  • 收集了醫(yī)學影像數(shù)據(jù),包括X光、CT、MRI、超聲、皮膚鏡、眼底、組織病理學和顯微鏡等不同醫(yī)學影像數(shù)據(jù)集。
  • 還收集了通用領(lǐng)域數(shù)據(jù),如圖像字幕、文本和多媒體指令跟隨數(shù)據(jù),以增強模型的泛化能力。

數(shù)據(jù)合成

  • 生成了長形式字幕,通過數(shù)據(jù)從醫(yī)學圖像分割和分類任務中提取結(jié)構(gòu)化的事實知識,生成詳細的醫(yī)學字幕。
  • 基于OCR的指令樣本,收集了生物學和化學考試問題和答案,并使用Gemini-2.0-Flash-Thinking進行詳細推理步驟標注。
  • 合成VQA實例,使用模板法和自指示法生成醫(yī)學VQA數(shù)據(jù),模板法通過手動設(shè)計問題模板和答案選項,自指示法通過GPT-4o生成問題和答案。
  • 蒸餾推理示例,使用GPT-4o生成鏈式推理路徑,并通過LLM驗證過程確保推理路徑的一致性。

問題2:Lingshu模型的多階段訓練框架是如何設(shè)計的,各階段的具體目標和訓練內(nèi)容是什么?

醫(yī)學淺層對齊(Medical Shallow Alignment)

  • 目標:建立醫(yī)學影像模態(tài)與其對應文本描述之間的有效對齊。
  • 訓練內(nèi)容:使用粗略標注的醫(yī)學圖像-文本對,僅微調(diào)視覺編碼器和投影層。

醫(yī)學深層對齊(Medical Deep Alignment)

  • 目標:全面整合醫(yī)學知識到MLLM中,增強其理解和適應各種臨床上下文的能力。
  • 訓練內(nèi)容:解凍所有模型參數(shù),使用更大、更高質(zhì)量和語義更豐富的醫(yī)學圖像-文本對進行端到端微調(diào)。

醫(yī)學指令調(diào)優(yōu)(Medical Instruction Tuning):

  • 目標:提高模型理解和執(zhí)行各種醫(yī)學用例任務的能力,增強其泛化到下游任務的能力。
  • 訓練內(nèi)容:使用廣泛的醫(yī)學和多模態(tài)指令數(shù)據(jù)集進行大規(guī)模、端到端優(yōu)化,包括多圖像推理任務、多輪對話和需要詳細推理過程的查詢。

醫(yī)學導向的強化學習(Medical-oriented Reinforcement Learning)

  • 目標:通過可驗證獎勵的強化學習(RLVR)增強模型的醫(yī)學推理、問題解決能力和解釋性。
  • 訓練內(nèi)容:使用精心策劃的醫(yī)學可驗證數(shù)據(jù)集進行訓練,采用Group Relative Policy Optimization(GRPO)方法,使用嚴格格式的獎勵和準確性獎勵。

問題3:MedEvalKit評估框架的主要特點是什么,它如何確保評估的標準化和可重復性?

多模態(tài)和文本醫(yī)學基準整合

  • 整合了多個主流的多模態(tài)和文本醫(yī)學基準,包括VQA-RAD、SLAKE、PathVQA、PMC-VQA、OMnimedVQA、MMMU、MedXpertQA、MMLU、PubMedQA、MedMCQA、MedQA-USMLE、MedBullets、SuperGPQA、MIMIC-CXR、IU-Xray和CheXpert Plus。

支持多種問題格式

  • 支持多選題、封閉式問題、開放式問題和醫(yī)學報告生成等多種問題格式。

標準化數(shù)據(jù)預處理和后處理協(xié)議

  • 標準化了所有問題的輸入格式,遵循候選醫(yī)學MLLMs推薦的官方聊天模板。
  • 使用規(guī)則基礎(chǔ)的評估與LLM作為評委的策略相結(jié)合的雙重驗證機制,結(jié)合客觀和主觀評估,提高評估的穩(wěn)定性和可靠性。

支持推理加速和高吞吐量評估

  • 通過vLLM支持推理加速,支持高通量和并行評估,具有強大的可擴展性和工程可用性。

通過這些特點,MedEvalKit確保了評估過程的標準化和可重復性,使得不同模型之間的比較更加公平和可靠。

本文轉(zhuǎn)載自??知識圖譜科技??,作者:知識圖譜科技

已于2025-6-19 09:31:47修改
收藏
回復
舉報
回復
相關(guān)推薦
亚洲一区不卡| 国产91精品对白在线播放| 国产欧美精品国产国产专区| 99超碰麻豆| 黄色aa久久| 尤物av一区二区| 美女黄色片网站| 欧美在线91| 欧美另类xxx| 日韩一区和二区| 国产区精品在线观看| 亚洲精品一区| 在线成人av网站| 夜色福利刺激| 日本一区二区久久| 国产欧美日韩网站| 免费在线观看成人| 国内精品久久国产| 日韩伦理视频| 亚洲成av人片在www色猫咪| 17c丨国产丨精品视频| 国产精品一区毛片| 亚洲精品欧美日韩| 日韩系列欧美系列| 国产va免费精品高清在线| 国产一区二区高清在线| 亚洲欧美国产va在线影院| www国产在线观看| 欧美三级日本三级少妇99| 国产精品果冻传媒潘| 日韩av网站在线免费观看| 美女福利精品视频| 婷婷成人av| www国产精品视频| jizz久久久久久| 亚洲婷婷国产精品电影人久久| 亚洲乱码日产精品bd在线观看| 青娱乐精品视频在线| 欧美亚洲免费高清在线观看| 日本一区二区在线看| 国产精品尤物福利片在线观看| 综合亚洲自拍| 国产人妖伪娘一区91| 欧美hd在线| 国产成人免费电影| 一区二区三区国产盗摄| 欧美极品一区二区| 欧美aaa级| 中文字幕欧美在线| 97色婷婷成人综合在线观看| 欧美成人免费视频| 国内毛片久久| 国产日韩欧美中文在线播放| 欧美成人综合| 日本视频精品一区| 国产美女精品在线| 久久久久久久久久久99| 国产色产综合产在线视频| 97视频资源在线观看| 伊人久久大香线| 欧美一级二级三级九九九| 久久成人久久鬼色| 夫妻免费无码v看片| 超免费在线视频| 欧洲成人一区二区| 国产精品久久久久久久第一福利| 国产精品99久久久久久似苏梦涵 | 日本乱码高清不卡字幕| 成人av一区| 日韩激情片免费| 一区二区三区在线免费看| 日本一区二区三区在线播放| 亚洲综合专区| 午夜视频久久久久久| 欧美精品色网| 久久久一本精品99久久精品66| 久草成人在线| 91麻豆精品国产91久久久使用方法| 欧美人与禽猛交乱配| 亚洲影院色无极综合| 日韩va欧美va亚洲va久久| 日韩av片网站| 日韩欧美你懂的| 亚洲国产合集| 欧美精品少妇一区二区三区| 狠狠久久伊人中文字幕| 成人a在线视频| 日韩精品一区二区三区视频播放 | 国产中文字幕在线看| 在线精品一区二区| 精品一区二区成人免费视频| 国产欧美日韩综合精品一区二区| 欧洲亚洲在线| 久久五月情影视| 激情久久婷婷| 国产小视频精品| 欧美tk—视频vk| 亚洲欧洲色图| 中文字幕人成一区| 亚洲免费在线观看视频| 欧美性猛交xxx乱大交3蜜桃| 亚洲中国最大av网站| 欧美日韩在线资源| 97精品国产aⅴ7777| 蜜乳av另类精品一区二区| 亚洲一级免费观看| 激情欧美丁香| 国产妇女馒头高清泬20p多| 狠狠躁夜夜躁久久躁别揉| 日韩毛片免费看| 国产精品sss| 国产欧美日韩在线观看| 快射视频在线观看| 2020国产精品视频| 国产传媒一区在线| 91大神在线网站| 77777少妇光屁股久久一区| 精一区二区三区| 精品三级久久久久久久电影聊斋| 欧美激情小视频| 成人永久免费视频| 18av在线视频| 91九色在线免费视频| 亚洲欧洲日韩在线| 色综合视频一区二区三区44| 天堂资源在线亚洲资源| 日本高清无吗v一区| 乱亲女h秽乱长久久久| 日韩中文字幕在线视频播放| 99国产精品| 一级在线视频| 欧美片一区二区三区| 国产麻豆欧美日韩一区| 美女免费久久| 91中文字幕在线观看| 一区二区三区不卡视频在线观看| 国产一区二区三区精品在线观看| 日本三日本三级少妇三级66| 日韩视频中午一区| 国产精品久久久久久久免费软件| 中文在线有码| 国产精品久久电影观看| 亚洲天堂久久久久久久| 91亚洲精品国产| 亚洲国产免费看| 在线影视一区| 国产精品久久久久久久久久尿| 国产精品拍天天在线| 亚洲国产精品免费视频| 欧洲av无码放荡人妇网站| 久久视频精品在线| 91美女片黄在线观看91美女| 亚洲精品一区二区在线播放∴| 性高湖久久久久久久久aaaaa| 亚洲国产免费av| 精品中文字幕一区二区| 青春草在线视频| 伊人久久av导航| 精品视频中文字幕| 国产精品一级黄| 精品自拍视频| 18岁视频在线观看| 欧美国产亚洲视频| 日本一区二区免费在线 | 欧美成人精品在线播放| 国产伦视频一区二区三区| 久久99精品国产99久久6尤物| 日本高清不卡在线观看| 91亚洲精品一区二区乱码| 亚洲激情女人| 欧美日本三区| 午夜一级在线看亚洲| 五月天综合网站| 欧美激情1区2区| 黄色一级片国产| 一色桃子一区二区| 2023国产精品视频| 日本在线视频一区二区三区| 色爱综合网站| 96pao国产成视频永久免费| 777欧美精品| 国产米奇在线777精品观看| 日韩在线电影| 日本高清视频网站www| 亚洲www永久成人夜色| 欧美一级在线免费| 成人av电影免费在线播放| 欧美电影在线观看完整版| 国产成人精品久久久| 精品国产999| 亚洲一区二区三区四区五区午夜| 欧美探花视频资源| 九九视频免费观看视频精品| 在线观看av片| 欧美日韩一区二区视频在线观看| 日韩电影视频免费| 国产午夜三级一区二区三| 亚洲天天综合| 免费在线小视频| 性直播在线观看|