国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

<span id="gha2w"></span>

<mark id="gha2w"></mark>

<bdo id="gha2w"><optgroup id="gha2w"></optgroup></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

CVPR2025視頻生成統(tǒng)一評(píng)估架構(gòu)，上交x斯坦福聯(lián)合提出讓MLLM像人類一樣打分

2025-06-13 09:10:00

人工智能新聞

Video-Bench視頻評(píng)估框架，能夠通過模擬人類的認(rèn)知過程，建立起連接文本指令與視覺內(nèi)容的智能評(píng)估體系。

視頻生成技術(shù)正以前所未有的速度革新著當(dāng)前的視覺內(nèi)容創(chuàng)作方式，從電影制作到廣告設(shè)計(jì)，從虛擬現(xiàn)實(shí)到社交媒體，高質(zhì)量且符合人類期望的視頻生成模型正變得越來越重要。

那么，要如何評(píng)估AI生成的視頻是否符合人類的審美和需求呢？

Video-Bench視頻評(píng)估框架，能夠通過模擬人類的認(rèn)知過程，建立起連接文本指令與視覺內(nèi)容的智能評(píng)估體系。

簡(jiǎn)單地說，能夠讓多模態(tài)大模型（MLLM）“像人一樣評(píng)估視頻”。

實(shí)驗(yàn)結(jié)果表明，Video-Bench不僅能精準(zhǔn)識(shí)別生成視頻在物體一致性（0.735相關(guān)性）、動(dòng)作合理性等維度的缺陷，還能穩(wěn)定評(píng)估美學(xué)質(zhì)量等傳統(tǒng)難題，顯著優(yōu)于現(xiàn)有的評(píng)估方法。

Video-Bench的研究團(tuán)隊(duì)來自上海交通大學(xué)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)。

Video-Bench：基于MLLM的自動(dòng)化視頻評(píng)估框架

Video-Bench團(tuán)隊(duì)在面對(duì)已有的視頻評(píng)估方法時(shí)，發(fā)現(xiàn)了兩個(gè)問題：

1.簡(jiǎn)單的評(píng)分規(guī)則往往無法捕捉視頻流暢度、美學(xué)表現(xiàn)等復(fù)雜維度——

那么，當(dāng)評(píng)判“視頻質(zhì)量”時(shí)，如何將人類出于“直覺”的模糊感受轉(zhuǎn)化為可量化的評(píng)估指標(biāo)？

2.現(xiàn)有基于大語言模型（Large Language Model，LLM）的基準(zhǔn)雖能更好模擬人類評(píng)估邏輯，但在視頻-條件對(duì)齊評(píng)估中存在跨模態(tài)比較困難，在視頻質(zhì)量評(píng)估中則面臨文本評(píng)價(jià)標(biāo)準(zhǔn)模糊化的局限——

那么，評(píng)估”視頻是否符合文字描述”時(shí)，評(píng)估系統(tǒng)如何實(shí)現(xiàn)跨模態(tài)對(duì)比？

針對(duì)上述的兩個(gè)問題，Video-Bench作出了兩點(diǎn)核心創(chuàng)新：

（1）系統(tǒng)性地構(gòu)建了覆蓋視頻-條件對(duì)齊（Video-Condition Alignment）和視頻質(zhì)量（Video quality）的雙維度評(píng)估框架。

（2）引入了鏈?zhǔn)讲樵儯–hain-of-Query）和少樣本評(píng)分（Few-shot scoring）兩項(xiàng)核心技術(shù)。

鏈?zhǔn)讲樵兺ㄟ^多輪迭代的”描述-提問-驗(yàn)證”流程，有效解決了文本與視頻跨模態(tài)對(duì)齊的評(píng)估難題；少樣本評(píng)分則通過多視頻對(duì)比建立相對(duì)質(zhì)量標(biāo)尺，將主觀的美學(xué)評(píng)判轉(zhuǎn)化為可量化的客觀標(biāo)準(zhǔn)。

這樣的功能設(shè)計(jì)使Video-Bench突破了現(xiàn)有視頻質(zhì)量評(píng)估方法的限制，能夠更全面、更智能地對(duì)視頻進(jìn)行評(píng)分。

更全面、更智能

一方面，Video-Bench將視頻生成質(zhì)量解構(gòu)為“視頻-條件對(duì)齊”和“視頻質(zhì)量”兩個(gè)正交維度，分別評(píng)估生成內(nèi)容與文本指令的符合度以及視頻本身的觀感質(zhì)量。

視頻-條件一致性關(guān)注評(píng)估生成的視頻是否準(zhǔn)確地反映了文本提示中的內(nèi)容，包括以下幾個(gè)關(guān)鍵維度對(duì)象類別一致性、動(dòng)作一致性、顏色一致性、場(chǎng)景一致性、視頻-文本一致性；

視頻質(zhì)量的評(píng)估則側(cè)重于視頻本身的視覺保真度和美學(xué)價(jià)值。包括成像質(zhì)量、美學(xué)質(zhì)量、時(shí)間一致性、運(yùn)動(dòng)質(zhì)量。

這種雙維度的評(píng)估框架能使Video-Bench全面覆蓋視頻生成的各個(gè)要素，在評(píng)估視頻是否“保真”的同時(shí)，關(guān)注到視頻的美觀程度。

另一方面，Video-Bench的評(píng)估框架利用多模態(tài)大語言模型（Multimodal Large Language Model，MLLM）的強(qiáng)大能力，通過鏈?zhǔn)讲樵兗夹g(shù)和少樣本評(píng)分技術(shù)，實(shí)現(xiàn)對(duì)視頻生成質(zhì)量的高效評(píng)估：

（1）鏈?zhǔn)讲樵兗夹g(shù)：通過多輪問答的方式，逐步深入地評(píng)估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態(tài)比較，而是先將視頻內(nèi)容轉(zhuǎn)換為文本描述，然后通過一系列精心設(shè)計(jì)的問題，逐步檢查視頻內(nèi)容是否與文本提示完全一致，有效解決了跨模態(tài)對(duì)比的語義鴻溝問題。

（2）少樣本評(píng)分技術(shù)：模仿人類橫向比較的本能，通過同時(shí)對(duì)比多個(gè)同主題視頻，使抽象的美學(xué)評(píng)價(jià)變得可量化。

例如在評(píng)估”電影感”時(shí)，Video-Bench會(huì)橫向比較不同生成結(jié)果的運(yùn)鏡流暢度、光影層次感，而非孤立打分。

“像人一樣評(píng)估視頻”

將Video-Bench與當(dāng)前主流評(píng)估方法進(jìn)行系統(tǒng)性對(duì)比，可以看到，在視頻-條件對(duì)齊維度，Video-Bench以平均0.733的Spearman相關(guān)系數(shù)顯著優(yōu)于傳統(tǒng)方法CompBench；在視頻質(zhì)量維度，其0.620的平均相關(guān)性同樣領(lǐng)先EvalCrafter。

此外，在對(duì)象類別一致性這一關(guān)鍵指標(biāo)上，Video-Bench達(dá)到0.735的相關(guān)性，較基于GRiT的方法提升56.3%。

為驗(yàn)證評(píng)估結(jié)果的可靠性，Video-Bench還組織了10人專家小組對(duì)35,196個(gè)視頻樣本進(jìn)行標(biāo)注。

對(duì)齊結(jié)果顯示，評(píng)估者間一致性（Krippendorff’s α）達(dá)0.52，與人類自評(píng)水平相當(dāng)。

通過組件設(shè)計(jì)的消融實(shí)驗(yàn)，可以看到，鏈?zhǔn)讲樵兪挂曨l-條件對(duì)齊評(píng)估提升了9.3%，少樣本評(píng)分將成像質(zhì)量評(píng)估相關(guān)性從46.1%（單樣本）提升至62.4%（7樣本）。

組合使用兩項(xiàng)技術(shù)時(shí)，評(píng)估穩(wěn)定性（TARA@3）達(dá)67%，Krippendorff’s α達(dá)0.867，驗(yàn)證了這些組件設(shè)計(jì)的有效性。

魯棒性測(cè)試結(jié)果發(fā)現(xiàn)，添加高斯噪聲后，Video-Bench的視頻-文本一致性評(píng)估誤差<5%，且三次重復(fù)實(shí)驗(yàn)的評(píng)分一致性達(dá)87%，對(duì)不同復(fù)雜度提示的評(píng)估穩(wěn)定性優(yōu)于基線方法32%。

現(xiàn)有視頻生成模型的測(cè)評(píng)結(jié)果

使用Vedio-Bench對(duì)7個(gè)主流視頻生成模型進(jìn)行測(cè)評(píng)，結(jié)果發(fā)現(xiàn)，商業(yè)模型整體優(yōu)于開源模型（Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87），不同模型存在顯著特長(zhǎng)差異（如CogVideoX在視頻-文本一致性領(lǐng)先，而Gen3在成像質(zhì)量最優(yōu)）。

總體來看，當(dāng)前的模型在動(dòng)作合理性（平均2.53/3）和動(dòng)態(tài)模糊（3.11/5）等動(dòng)態(tài)維度表現(xiàn)較弱。

對(duì)不同基礎(chǔ)模型進(jìn)行比較，結(jié)果發(fā)現(xiàn)，與Gemini1.5pro和Qwen2vl-72b相比，GPT-4o通常在視頻質(zhì)量和一致性評(píng)分上表現(xiàn)更優(yōu)，特別是在成像質(zhì)量（0.807）和視頻-文本一致性（0.750）方面，GPT-4o-0806表現(xiàn)尤為突出。

然而，性能并不總是隨著GPT-4o版本的更新而持續(xù)提升。例如，GPT-4o-1120在運(yùn)動(dòng)效果方面相較于GPT-4o-0806有所下降（0.309vs.0.469），這表明在更新過程中，時(shí)間運(yùn)動(dòng)檢測(cè)可能存在潛在退化。

作者簡(jiǎn)介

共同第一作者：

韓慧，上海交通大學(xué)碩士生，研究方向?yàn)槎嗄B(tài)語言模型

李思遠(yuǎn)，上海交通大學(xué)碩士生，研究方向?yàn)槎嗄B(tài)語言模型

陳家棋，復(fù)旦大學(xué)碩士，斯坦福訪問學(xué)者，F(xiàn)ellou 研究員，研究方向?yàn)?LLM agent

袁怡雯，CMU 本科，xAI 研究員，研究方向?yàn)槎嗄B(tài)語言模型和 RAG

通訊作者為倪泳鑫，波士頓大學(xué)博士

代碼鏈接：https://github.com/Video-Bench/Video-Bench.git論文地址：https://arxiv.org/html/2504.04907v1

責(zé)任編輯：張燕妮來源：量子位

視頻生成 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

亚洲欧美国产一区二区三区| 清纯唯美亚洲经典中文字幕| 国产xxxx振车| 91免费欧美精品| 日韩中文字幕免费视频| 欧美日韩国产片| 中文字幕不卡在线| 美女一区二区视频| 欧美另类亚洲| 国产永久精品大片wwwapp| 国产成人精品一区二区三区视频 | 粉嫩av一区二区三区粉嫩| 国产色综合网| 天天综合精品| 国产成人1区| 欧美深夜视频| 欧洲在线视频一区| 精品国产乱码久久久久久图片 | 欧美又粗又长又爽做受| 色一情一乱一伦一区二区三区 | 黄色网页网址在线免费| 你懂的在线观看视频网站| 国产精品666| www污污在线| 午夜影院在线| 中文字幕在线影院| 日韩欧美电影在线观看| 久久这里精品| 秋霞a级毛片在线看| 性网站在线观看| 亚洲女同志freevdieo| 欧美粗大gay| 少妇精品视频在线观看| 6080成人| 日韩精品一区二区三区免费观看 | 亚洲天堂手机| 国产三级视频在线看| 91网在线看| 深夜成人影院| 欧美激情15p| 久久电影院7| 日日摸夜夜添夜夜添国产精品| 久久99精品久久久久| 91美女在线观看| 亚洲v中文字幕| 欧美成人三级在线| 欧美成人网在线| 国产欧美欧洲在线观看| 亚洲一区二区三区在线免费观看| 欧美国产综合视频| 2021狠狠干| 国产91色在线观看| 免费福利在线视频| 色香欲www7777综合网| 精品综合久久88少妇激情| 99精品国产在热久久婷婷| av不卡免费在线观看| 欧美日韩亚洲高清| 中文字幕在线精品| 91天堂在线观看| 鲁一鲁一鲁一鲁一澡| 97成人精品视频在线观看| 亚洲二区在线播放视频| 日韩网站在线观看| 久久精品亚洲一区二区三区浴池 | 国产成人精品网站| 视频在线精品一区| 国产免费黄视频在线观看| 麻豆视频在线观看免费网站| 精品中文字幕一区二区三区| 亚洲电影av| 一区二区三区免费网站| 亚洲午夜女主播在线直播| 国产精品乱子乱xxxx| 羞羞在线视频| 免费在线观看一区| 日本不卡的三区四区五区| 欧美日韩在线观看视频| 久热精品视频在线观看一区| 麻豆传媒一区二区| 亚洲mv在线| 欧美成人精品一区| 亚洲乱码国产乱码精品天美传媒| 最新中文在线视频| 精品精品国产毛片在线看| 97久久人人超碰| 日韩精品专区在线影院观看| 国产一区欧美二区三区| 国产成人综合美国十次| 成人av综合网| 欧美激情综合在线| 午夜精品视频在线| 欧美在线观看www| 欧洲成人一区| 国产宾馆实践打屁股91| 亚洲丝袜在线视频| 999久久欧美人妻一区二区| 免费成人在线电影| 日韩精品成人一区二区在线| 日韩欧美精品在线| 亚洲综合第一| yw.尤物在线精品视频| 在线观看免费毛片| 一本色道久久综合亚洲精品酒店 | 裸体一区二区三区| 欧美成人性福生活免费看| 亚洲一区二区三区乱码 | 国产成人av电影在线播放| 国产亚洲精品高潮| 国产在线观看福利| 欧美一级免费| 国产午夜亚洲精品不卡| 欧美激情欧美激情| 国产一级粉嫩xxxx| 欧美一二区在线观看| 欧美美女视频在线观看| 精品一区二区三区自拍图片区| av观看在线| 国产剧情一区二区| 久久免费高清视频| 一区二区电影网| 在线午夜精品| 日韩精品高清在线| 国产美女玉足交| 日本人妻伦在线中文字幕| 91在线porny国产在线看| 夜夜嗨av色一区二区不卡| 国产黄色片大全| 中文字幕一区二区三区在线视频| 欧美大胆人体bbbb| www.97| 校园春色综合网| 91国内精品久久| 亚洲无线看天堂av| 国产精品久久777777| 免费久久久一本精品久久区| 欧美色欧美亚洲另类二区| 91婷婷韩国| 亚洲成人精品在线观看| 亚洲一区二区三区精品中文字幕| 亚洲aⅴ怡春院| 水中色av综合| 色呦呦日韩精品| caoporn97在线视频| 日韩大陆毛片av| 丁香婷婷久久| 91精品国产一区| 日韩av有码| 视频一区国产精品| 99re热这里只有精品视频| 欧美日韩一区中文字幕| av观看免费在线| 99re成人精品视频| 99免费视频| 在线视频你懂得一区| 日本一本在线免费福利| 中日韩美女免费视频网站在线观看 | 成人一区二区三区中文字幕| 国产h视频在线播放| 欧美国产一区在线| 一级片在线观看| 欧美va在线播放| 亚洲天堂导航| 97久久精品视频| 少妇精品久久久| 久久亚洲国产精品日日av夜夜| 看片的网站亚洲| 男人亚洲天堂网| 色综合色综合色综合色综合色综合| 神马久久高清| 亚洲成人教育av| 欧美一级网址| 国产成人高清激情视频在线观看| 成人羞羞网站入口免费| 含羞草久久爱69一区| 成人午夜伦理影院| 污视频网站在线看| 日韩欧美你懂的| 91亚洲无吗| 国外成人免费视频| 国产不卡视频一区二区三区| 国产美女视频黄a视频免费| 日韩一级片网站| 欧洲grand老妇人| 日韩欧美精品在线不卡| 一区二区三区在线免费视频| 日韩av电影手机在线| 欧美久久天堂| 北条麻妃在线一区二区| 激情久久中文字幕| 在线观看污视频| 精品久久久国产| 国产视频网站一区二区三区| 99在线高清视频在线播放| 久久麻豆一区二区| 91精品国产91久久久久游泳池| 欧美交受高潮1| 日韩精品亚洲专区| 亚洲免费av一区二区| 久久影视电视剧免费网站|

<ul id="kr0q7"><pre id="kr0q7"><style id="kr0q7"></style></pre></ul>

<rp id="kr0q7"><acronym id="kr0q7"></acronym></rp>