国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案

發(fā)布于 2025-11-18 09:58
瀏覽
0收藏

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

論文鏈接: https://arxiv.org/pdf/2511.11434 
項(xiàng)目鏈接:https://weichow23.github.io/weave/

亮點(diǎn)直擊

  • 數(shù)據(jù)集創(chuàng)新:WEAVE-100k——首個(gè)面向多輪上下文感知圖像理解與生成的大規(guī)模數(shù)據(jù)集。包含10萬(wàn)個(gè)樣本、37萬(wàn)輪對(duì)話和50萬(wàn)張圖像,全面覆蓋圖像理解、編輯與生成三大任務(wù)。
  • 評(píng)估體系構(gòu)建:WEAVEBench是首個(gè)面向交錯(cuò)式多模態(tài)理解與生成任務(wù)的人工標(biāo)注評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)包含100個(gè)精心設(shè)計(jì)的測(cè)試案例,并創(chuàng)新性地采用混合VLM評(píng)估框架,系統(tǒng)評(píng)估多輪生成、視覺(jué)記憶與世界知識(shí)推理能力。
  • 實(shí)證研究突破:驗(yàn)證了基于WEAVE-100k的訓(xùn)練能顯著提升模型在傳統(tǒng)基準(zhǔn)測(cè)試中的性能,并有效激發(fā)視覺(jué)記憶能力的涌現(xiàn)。WEAVEBench評(píng)估結(jié)果揭示了現(xiàn)有模型在多輪上下文感知生成方面仍存在持續(xù)性的技術(shù)局限。

總結(jié)速覽

解決的問(wèn)題

  • 核心局限:現(xiàn)有統(tǒng)一多模態(tài)模型的數(shù)據(jù)集和基準(zhǔn)測(cè)試主要針對(duì)單輪交互,無(wú)法支撐對(duì)多輪次、上下文關(guān)聯(lián)的真實(shí)世界圖像創(chuàng)作與編輯過(guò)程的研究與評(píng)估。

提出的方案

  • 核心方案:推出名為WEAVE的全套解決方案,這是首個(gè)面向上下文交錯(cuò)式跨模態(tài)理解與生成的研究體系。
  • 組成部分
  1. WEAVE-100k:一個(gè)包含10萬(wàn)樣本、37萬(wàn)輪對(duì)話和50萬(wàn)圖像的大規(guī)模數(shù)據(jù)集,覆蓋需歷史上下文推理的理解、編輯與生成任務(wù)。
  2. WEAVEBench:一個(gè)包含100項(xiàng)任務(wù)(基于480張圖像)的人工標(biāo)注基準(zhǔn)測(cè)試平臺(tái),用于系統(tǒng)評(píng)估模型能力。

應(yīng)用的技術(shù)

  • 混合VLM評(píng)估框架:在WEAVEBench中,創(chuàng)新性地結(jié)合參考圖像“原圖+編輯指令”的方式進(jìn)行綜合評(píng)估。
  • 多任務(wù)數(shù)據(jù)集構(gòu)建:在WEAVE-100k數(shù)據(jù)集中,整合了理解、編輯和生成三大任務(wù)維度,并要求模型進(jìn)行歷史上下文推理。

達(dá)到的效果

  • 能力提升:基于WEAVE-100k的訓(xùn)練能有效提升模型的視覺(jué)理解、圖像編輯及理解-生成協(xié)同能力,并促進(jìn)視覺(jué)記憶這一新能力的涌現(xiàn)。
  • 評(píng)估與發(fā)現(xiàn):WEAVEBench的評(píng)估揭示了當(dāng)前先進(jìn)模型在多輪上下文感知圖像生成與編輯方面仍存在持續(xù)的技術(shù)局限。
  • 社區(qū)貢獻(xiàn):為多模態(tài)社區(qū)研究上下文交錯(cuò)式理解與生成提供了全新的視角和重要的基礎(chǔ)支撐。

WEAVE

為評(píng)估上下文交錯(cuò)式理解與生成能力,首先介紹WEAVE-100k和WEAVEBench的數(shù)據(jù)收集流程,隨后詳述評(píng)估設(shè)置與指標(biāo),并呈現(xiàn)WEAVE的核心統(tǒng)計(jì)數(shù)據(jù)。

數(shù)據(jù)收集

WEAVE-100k 為生成具備視覺(jué)記憶能力的豐富多樣數(shù)據(jù),本文構(gòu)建了如下圖3所示的數(shù)據(jù)流水線。該流水線包含四條獨(dú)立生成路徑,并經(jīng)過(guò)多輪過(guò)濾優(yōu)化階段以確保數(shù)據(jù)準(zhǔn)確性與質(zhì)量。為生成具有視覺(jué)記憶能力的多輪編輯數(shù)據(jù),本文實(shí)施了四種方法路徑:(i) 多圖像融合:通過(guò)融合編輯后或直接生成的圖像實(shí)現(xiàn)歷史迭代參照;(ii) 移除后復(fù)原:采用先移除/替換對(duì)象再重新添加的技術(shù),使系統(tǒng)能夠回憶先前刪除的視覺(jué)元素;(iii) 衍生想象與比較:在融合前引入推導(dǎo)替代方案或生成新圖像的衍生方法;(iv) 序列化流程:按照敘事進(jìn)程或結(jié)構(gòu)化編輯操作實(shí)施序列化編輯。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

WEAVEBench 由具有STEM專業(yè)研究生學(xué)歷的人員進(jìn)行標(biāo)注。該基準(zhǔn)包含16個(gè)任務(wù)類別的100個(gè)測(cè)試項(xiàng),既涵蓋需要視覺(jué)記憶的多輪編輯任務(wù),也包含需要世界知識(shí)(文化背景、物理現(xiàn)象與化學(xué)過(guò)程)的挑戰(zhàn)性任務(wù)。如下圖2所示,任務(wù)包括生成涉及東京塔的實(shí)例及展示對(duì)交通信號(hào)反應(yīng)的理解。所使用的圖像包含網(wǎng)絡(luò)采集內(nèi)容以及來(lái)自三個(gè)模型的合成生成圖像:Seedream 4.0、Nano Banana和 SeedEdit 3.0]。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

評(píng)估設(shè)置與指標(biāo)

本文采用VLM-as-judge自動(dòng)評(píng)估框架。為實(shí)現(xiàn)聚焦評(píng)估,本文采用基于關(guān)鍵點(diǎn)的結(jié)構(gòu)化評(píng)分方法:通過(guò)混合策略指導(dǎo)VLM同時(shí)依據(jù)參考圖像及"原圖+編輯指令"組合進(jìn)行評(píng)估。如下圖5所示,評(píng)估器調(diào)用不同圖像作為參照,并根據(jù)預(yù)設(shè)關(guān)鍵點(diǎn)進(jìn)行評(píng)分。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

本文的評(píng)估包含4項(xiàng)指標(biāo)(前三項(xiàng)適用于編輯任務(wù),末項(xiàng)適用于理解任務(wù)):

  • 關(guān)鍵點(diǎn)正確性 (KP):衡量編輯后圖像是否滿足指定編輯要求。
  • 視覺(jué)一致性 (VC):確保非目標(biāo)元素保持不變,保持與原始圖像的一致性(場(chǎng)景保留時(shí)未編輯區(qū)域完整保留;場(chǎng)景修改時(shí)編輯區(qū)域保持風(fēng)格協(xié)調(diào)),并評(píng)估編輯對(duì)象的身份保持度。
  • 圖像質(zhì)量 (IQ):評(píng)估生成圖像的整體質(zhì)量。
  • 準(zhǔn)確率 (Acc):衡量推理結(jié)果的正確性。

數(shù)據(jù)統(tǒng)計(jì)

對(duì)于WEAVE中的每個(gè)實(shí)例,本文提供文本提示、一張或多張初始圖像以及真實(shí)示例。測(cè)試集還包含正確輸出圖像必須滿足的關(guān)鍵信息。

附錄D提供了代表性數(shù)據(jù)集示例。下表4展示了訓(xùn)練集的關(guān)鍵統(tǒng)計(jì)數(shù)據(jù)。大多數(shù)實(shí)例包含超過(guò)五張圖像,每個(gè)實(shí)例平均有3.8輪對(duì)話。上圖5展示了訓(xùn)練集和測(cè)試集的類別分布,顯示出跨數(shù)據(jù)類型的相對(duì)均衡分布。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

實(shí)驗(yàn)

首先評(píng)估了22個(gè)模型在WEAVEBench上的表現(xiàn),發(fā)現(xiàn)當(dāng)前模型在上下文交錯(cuò)生成方面存在困難,且隨著內(nèi)容長(zhǎng)度增加出現(xiàn)性能下降。隨后,本文通過(guò)微調(diào)Bagel驗(yàn)證了WEAVE-100k的高質(zhì)量特性。最后進(jìn)行了質(zhì)量分析并評(píng)估了評(píng)判器的有效性。

WEAVEBench

設(shè)置。 如下表2所示,本文在WEAVEBench上評(píng)估了4個(gè)LLM、7個(gè)編輯模型和11個(gè)UMM。評(píng)估在三種不同的上下文條件下進(jìn)行:(1) 無(wú)上下文(無(wú)上下文信息的單輪生成),(2) 部分上下文(僅使用自生成圖像及明確提及的視覺(jué)上下文,排除其他歷史交互),(3) 完整上下文(可見所有先前交互)。對(duì)于圖像放置,本文采用兩種配置:"首次提及"(圖像出現(xiàn)在首次提及位置)和"前置集中"(所有圖像整合在輸入開頭),下表2報(bào)告了后者的結(jié)果。對(duì)于無(wú)法處理序列格式輸入的模型,本文按照先前工作[19,89]的方法實(shí)施了拼接方案。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

根據(jù)表中結(jié)果,本文得出以下結(jié)論: 上下文圖像生成仍具挑戰(zhàn)性。測(cè)試模型中,表現(xiàn)最佳的編輯模型和UMM方法分別僅獲得0.68和0.767的最高分。此外觀察到顯著的領(lǐng)域偏差,創(chuàng)意圖像領(lǐng)域的表現(xiàn)持續(xù)優(yōu)于科學(xué)和邏輯領(lǐng)域。這表明生成能力在有效整合世界知識(shí)方面仍有較大提升空間。


上下文使用至關(guān)重要 (a) 對(duì)于理解任務(wù),使用上下文信息相比無(wú)歷史上下文的基線條件帶來(lái)顯著性能提升。如下圖6(a)所示,QwenVL表現(xiàn)出163%的顯著提升,表明WEAVEBench成功將歷史信息納入模型評(píng)估。(b) 對(duì)于生成任務(wù),增加上下文內(nèi)容對(duì)不同模型類型產(chǎn)生分化效應(yīng)。開源模型隨著歷史上下文增加出現(xiàn)性能逐步下降——Qwen-Edit分別出現(xiàn)5.3%和8.6%的性能遞減。這表明受單輪編輯能力限制的開源模型,在處理擴(kuò)展上下文信息時(shí)定位精度下降,因而無(wú)法有效利用上下文數(shù)據(jù)。相反,Nano等閉源模型表現(xiàn)出漸進(jìn)式改進(jìn),表明其成功利用了上下文信息。(c) WEAVEBench展現(xiàn)優(yōu)異圖像質(zhì)量。如下圖6(b)所示,采用WEAVEBench真實(shí)圖像作為上下文示例使所有模型性能提升。值得注意的是,Qwen-Image-Edit表現(xiàn)出7.1%的顯著提升,這可能源于其生成能力相對(duì)nano-banana[21]固有較弱。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

序列輸入優(yōu)勢(shì)。 如上圖6(c)所示,序列圖像輸入相比拼接輸入展現(xiàn)出顯著性能優(yōu)勢(shì)。該效應(yīng)在Bagel模型中尤為突出,拼接輸入導(dǎo)致10.3%的性能下降。這些發(fā)現(xiàn)凸顯了UMM作為有效編輯模型的潛力,特別是考慮到傳統(tǒng)編輯模型無(wú)法直接處理多圖像和歷史信息作為輸入。

WEAVE-100k訓(xùn)練

為驗(yàn)證數(shù)據(jù)的有效性,本文在Bagel上進(jìn)行實(shí)驗(yàn)。在四類任務(wù)上實(shí)現(xiàn)性能提升: (i) 視覺(jué)理解。 本文的數(shù)據(jù)有效提升理解任務(wù)性能,尤其在MMMU上獲得9.8%的提升。(ii) 圖像編輯。如下表3所示,微調(diào)后的Bagel在GEditBench上總分提升4.8%。該模型在多數(shù)任務(wù)中超越基線版本,材質(zhì)變更和風(fēng)格變更類別提升尤為顯著,分別達(dá)到13.4%和15.6%。(iii) 理解與生成協(xié)同。上表4顯示,微調(diào)后Bagel在RISE認(rèn)知任務(wù)中實(shí)現(xiàn)顯著提升??臻g推理和邏輯推理任務(wù)均呈現(xiàn)100%的性能增長(zhǎng),表明微調(diào)后模型能更有效利用理解能力和世界知識(shí)來(lái)增強(qiáng)生成過(guò)程。這些發(fā)現(xiàn)印證了WEAVE-100k方法的高質(zhì)量特性。(iv) 交錯(cuò)式跨模態(tài)理解與生成。如表2所示,本文的微調(diào)模型在WEAVEBench上相比Bagel提升42.5%。在更具挑戰(zhàn)性的科學(xué)問(wèn)題上表現(xiàn)提升34.6%,表明使用本數(shù)據(jù)集訓(xùn)練顯著增強(qiáng)了模型的交錯(cuò)式跨模態(tài)理解與生成能力。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

質(zhì)量分析

如下圖7所示,通過(guò)質(zhì)量結(jié)果分析本文得出以下結(jié)論:(i) 指令遵循能力仍需提升。例如圖中左側(cè)案例,OmniGen和Ovis未能正確執(zhí)行生成;右側(cè)案例第三列顯示Qwen-Image-Edit僅生成塔樓而未包含任何人像。(ii) 基于weave數(shù)據(jù)集的微調(diào)催生了視覺(jué)記憶能力。微調(diào)模型在左側(cè)案例中正確區(qū)分穿粉色和黃色衣服的主角,在右側(cè)案例中展現(xiàn)出先移除人像再重新整合的能力。

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案-AI.x社區(qū)

評(píng)判器使用的可靠性

為評(píng)估VLM-as-a-judge評(píng)分的可靠性,開展了專家評(píng)估研究,邀請(qǐng)三位人類專家對(duì)Nano-banana、Qwen-Image-Edit和SeeDream模型進(jìn)行交叉評(píng)估,每個(gè)模型分析100個(gè)實(shí)例。通過(guò)計(jì)算GPT-4.1評(píng)分與專家評(píng)分之間的皮爾遜相關(guān)系數(shù),并與Claude Opus 4.1評(píng)估結(jié)果進(jìn)行對(duì)比分析(上圖6)。結(jié)果表明:GPT-4.1與人類評(píng)分的相關(guān)性持續(xù)超過(guò)0.8,而Claude評(píng)估則展現(xiàn)出強(qiáng)大的跨VLM一致性,這說(shuō)明VLM評(píng)估器的具體選擇對(duì)評(píng)估結(jié)果影響甚微。

結(jié)論

WEAVE——首個(gè)面向上下文交錯(cuò)式跨模態(tài)理解與生成的綜合套件。推出了包含10萬(wàn)樣本、37萬(wàn)對(duì)話輪次和50萬(wàn)圖像的大規(guī)模數(shù)據(jù)集WEAVE-100k,以及由100項(xiàng)任務(wù)(含480張圖像)構(gòu)成、配備混合VLM評(píng)判器評(píng)估框架的人工標(biāo)注基準(zhǔn)WEAVEBench。實(shí)驗(yàn)表明,基于WEAVE-100k的訓(xùn)練在多個(gè)權(quán)威基準(zhǔn)上取得顯著提升:MMMU提升9.8%,GEditBench提升4.8%,同時(shí)促進(jìn)了UMM中視覺(jué)記憶能力的涌現(xiàn)。與此同時(shí),WEAVEBench的廣泛評(píng)估揭示當(dāng)前模型在多輪上下文感知生成方面仍存在困難,尤其在內(nèi)容長(zhǎng)度增加時(shí)表現(xiàn)更為明顯。此外,這項(xiàng)挑戰(zhàn)性任務(wù)已被證明超出傳統(tǒng)編輯模型的能力范圍。WEAVE為上下文交錯(cuò)式多模態(tài)理解與生成研究奠定了基石,并凸顯了該領(lǐng)域發(fā)展的迫切必要性。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/ASzFj78erOyW3JfkKfsEzA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
日韩欧美精品网址| 国产一区二区在线| 性欧美.com| 色婷婷亚洲精品| 成人在线亚洲| 诱人的瑜伽老师3hd中字| 国模视频一区二区| 欧美经典三级视频一区二区三区| 伊人影院在线播放| 国产美女91呻吟求| 亚洲欧美另类在线| 丝袜av一区| 精品176二区| 日韩中文字幕国产精品| 国产乱色国产精品免费视频| 成人片在线看| 日韩欧美在线观看强乱免费| 免费电影一区二区三区| 国产精品一区二区久久久久| 亚洲男人的天堂网| 国产精品亚洲片在线播放| 宅男深夜视频| 国产欧美精品一区二区三区-老狼| 国产一区在线观看视频| 国产不卡123| 永久免费看av| 日韩专区在线播放| 欧美激情一区二区三区在线| 美国一区二区| 在线香蕉视频| 久久国产一区| 亚洲欧美一区二区三区久久| 国产电影精品久久禁18| 国产一区二区主播在线| 免费午夜视频在线观看| 国产成人精品电影| 欧美最猛黑人xxxxx猛交| 丝袜美腿成人在线| 欧美日韩激情电影| www欧美激情| 成人国产精品色哟哟| 欧美高清视频一二三区 | 精品久久久久久久| 在线看你懂得| 久久久久高清| 国产亚洲精品美女久久久久| 中文字幕高清不卡| 欧美国产综合| 亚洲精品动漫| www.久草| 精品国产乱码久久久久久蜜柚 | 欧美成人免费小视频| 欧美激情在线一区二区三区| 欧美日韩大片免费观看| 在线色视频网| 日本一区二区三区视频在线观看| 同产精品九九九| 国产欧美日韩亚洲一区二区三区| 日本午夜视频| 精品国产福利| 综合av色偷偷网| 一区二区视频在线看| 伊人情人综合网| 成人黄色动漫| jizzjizzjizz亚洲女| 风间由美一区二区三区| 亚洲欧洲日韩国产| 亚洲一区在线免费观看| 视频一区欧美精品| 国产精品丝袜在线播放| 你懂的在线播放| 老司机激情视频| 日韩免费视频在线观看| 欧美一区二区三区思思人| 99国产精品国产精品毛片| 婷婷亚洲五月色综合| 色多多在线观看| aaaaaaa大片免费看| 日韩亚洲视频| 欧美一级高清免费播放| 欧美刺激午夜性久久久久久久| 国产精品亚洲综合久久| 大胆国模一区二区三区| 你懂的好爽在线观看| 国产一二三区在线播放| 国产美女高潮久久白浆| 亚洲开心激情网| 丁香五六月婷婷久久激情| 国产精品夜夜嗨| 91精品蜜臀一区二区三区在线| 美女黄视频在线播放| 日韩一本精品| 国产成人综合精品| 亚洲第一区第一页| 精品国产乱码久久久久酒店| 国产成人精品免费视频网站| 欧美激情五月| 99re8这里有精品热视频8在线| 99在线欧洲视频| 四虎一区二区| 国产欧美精品xxxx另类| 中文字幕日韩av| 91麻豆精品久久久久蜜臀| 中文字幕免费不卡| 久久国产欧美| 曰本一区二区三区视频| 97成人资源| 黄色片在线播放| 日韩久久一级片| 亚洲看片网站| 7777精品伊久久久大香线蕉语言| 亚洲国产精品久久久久秋霞蜜臀 | 日韩理论片在线| 久久99精品国产麻豆不卡| 精品国产乱码久久久久久1区2匹 | 日本一区二区三区四区视频| 欧美日韩国产片| 亚洲色图欧美偷拍| 国产成人亚洲综合a∨婷婷图片| 伊人久久影院| 国产精品一卡二卡三卡 | 2021国产精品久久精品| 国产精品社区| 999久久久国产精品| 91精品国产色综合久久不卡98| 日韩一区中文字幕| 日韩成人午夜电影| 欧美日韩精品| 亚洲va久久| 国产精品日韩精品在线播放| 四虎亚洲成人| 欧美69xxxx| 偷拍自拍在线视频| 成人h动漫在线| 国产高潮免费视频| 国产精品久久..4399| 一区二区视频国产| 久久久久久九九九九| av一区二区三区四区电影| 日本精品久久电影| 久久久久久久91| 久久夜色撩人精品| xxx欧美精品| 亚洲欧美综合图区| 亚洲女人被黑人巨大进入| 精品国产乱码久久久久久影片| 久久久国产精品午夜一区ai换脸| 精品国产1区| 日韩中文av| 全球av集中精品导航福利| 精品一区视频| 国产精品亚洲欧美一级在线| 二区三区不卡| 东京一区二区| se01亚洲视频| 精品123区| 成人午夜亚洲| 成人午夜毛片| 久久69成人| 一级欧美视频| 日韩毛片免费看| 97久久中文字幕| 日韩高清二区| 成人18夜夜网深夜福利网| 卡通动漫国产精品| 五月综合久久| 日韩专区精品| 97在线精品| 欧美一区二区三区另类| 中文字幕亚洲综合久久五月天色无吗''| 亚洲精品一区av| 成人免费在线观看视频| 久久精品资源| 伊人精品综合| 精品国产一区二区三区av片| 欧美亚洲国产一区| 欧美视频不卡| 天堂精品中文字幕在线| 精品一区精品二区高清| 成人午夜电影久久影院| 2021国产精品久久精品| 亚洲天堂2014| 一本色道a无线码一区v| 欧美亚洲免费在线一区| 91精品综合久久久久久| 日韩精品免费观看| 中文字幕久久久av一区| 欧美精品电影免费在线观看| 欧美专区在线播放| 亚洲www在线| 美女被啪啪一区二区| 一区二区精品在线观看| 国产黄色片免费在线观看| 九色91popny| 日韩写真福利视频在线| 免费av在线播放| 伊人久久视频| 牛牛影视一区二区三区免费看| 日韩欧美精品电影| 超碰成人免费|