国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

北大字節開源首個時空推理視頻模型!思考過程全透明,性能超越GPT-4o

人工智能 新聞
來自北大和字節的聯合團隊,推出了首個將顯式時空證據嵌入視頻推理全過程的開源模型——Open-o3 Video,讓AI不僅能答對問題,也能在思維過程中同步直觀標出具體位置,真正實現有跡可循的視頻推理。

AI看視頻也能劃重點了!

不僅能回答“是什么”、“發生了什么”,還能指出是在“何時何地”發生。

來自北大和字節的聯合團隊,推出了首個將顯式時空證據嵌入視頻推理全過程的開源模型——Open-o3 Video,讓AI不僅能答對問題,也能在思維過程中同步直觀標出具體位置,真正實現有跡可循的視頻推理。

△Open-o3 Video的能力

同時,模型采用non-agent架構,避免了復雜的工具調用和多輪推理,一次回復中直接完成“看—想—證—答”的閉環。

在多個視頻推理測試中,關鍵指標可提升至24.2%,性能表現超越GPT-4oGemini-2-Flash等一眾閉源模型。

下面是更多詳細內容。

研究背景

視頻理解是多模態大模型(MLLM)中最復雜的任務之一。

不同于靜態圖像,視頻同時承載著時間維度的動態變化與空間維度的場景交互。

這意味著,模型不僅要識別畫面中的物體與動作(What),還必須判斷它們在什么時間(When) 出現、什么位置(Where) 發生。

近期,Video-R1、VideoRFT等模型通過強化學習顯著提升了視頻理解的邏輯一致性,但它們的思維鏈仍是純文本的,模型可能正確回答問題,卻無法指出支撐答案的具體畫面。

這種“黑箱式推理”讓模型的判斷既難以解釋,也難以驗證。

另外,OpenAI的o3模型首次提出 “Thinking with Images(圖像思考)” 的理念,通過在推理中嵌入圖像(如框選區域、局部放大、縮放查看),讓模型能在推理鏈中自然地引用視覺線索,從而實現“有依據的推理”。

然而,將這種理念擴展到視頻領域,即讓模型在推理中提供時間和空間兩方面的證據,更具有困難:

1、在推理中,文本、時間戳和物體目標框的一致性難以保持。

模型需在幾十上百幀中精確對齊事件發生的時間點,任何漂移都會導致推理邏輯錯誤,訓練難度大。

且同一物體在不同幀位置變化劇烈,需在時序動態中持續追蹤空間位置。

2、 時空耦合監督嚴重缺失。

現有數據要么只提供時間段標注(Temporal Grounding),要么僅有單幀的空間框(Spatial Grounding),缺乏統一的時空標注與相應的思維鏈。

模型訓練過程

補足數據短板

因此基于時空定位的線索來做視頻推理,最根本的瓶頸在于數據。

現有的視頻理解數據集往往只具備時間或空間維度的標注,沒有時空耦合的思維鏈數據,模態間存在割裂。

于是團隊構建了首個面向顯式時空推理的統一語料體系——STGR(Spatio-Temporal Grounded Reasoning),包括:STGR-CoT-30kSTGR-RL-36k兩部分。

前者用于監督微調(SFT),幫助模型學習帶時空標注的推理格式與輸出結構;后者用于強化學習階段(RL),提供高質量獎勵信號,以持續優化模型的時空對齊與證據生成能力。

△左:數據構建流程;右:數據分布

兩個數據集均包含四類任務:時序定位;空間定位;時空定位數據和視頻問答數據,數據的分布。

其中,5.9k的高質量spatio-temporal數據是團隊按照圖中的數據管線進行標注的,具體流程如下:

1、針對兩種數據源(temporal grounding和plm-rdcap) 利用Gemini 2.5 Pro進行初始標注,生成問題-答案對,初始的關鍵幀、目標檢測框和推理過程;顯示的時空定位的格式如下:

"<obj>object_name</obj><box>[x min, y min, x max, y max]</box>at<t>timestamp</t>s"

2、由于大模型標注的檢測框的質量有限,團隊通過兩種方式進行過濾:

  • 剔除覆蓋面積過大(超過畫面80%)的無效框;
  • 通過Qwen2.5-VL-7B驗證目標類別是否匹配,例如用查詢“Is this a dog?”來確認檢測框內容。

3、一致性檢查:改寫推理鏈以確保問題-答案、時間戳、物體名稱、邊框和推理鏈一一對應,刪除冗余或不一致的樣本。

兩階段訓練方法

△Open-o3 Video兩階段訓練流程

在高質量時空語料奠定基礎之后,如何讓模型真正學會“在視頻中思考”成為關鍵問題。

團隊發現,僅靠監督微調并不能達到滿意效果。因為在監督階段,模型更多地是在模仿人類標注者的語言模式,而非真正理解視覺線索與推理結構之間的邏輯關系。

因此,要讓模型能夠主動發現并引用關鍵證據,必須通過一種可自我糾偏的強化學習機制,讓獎勵信號直接約束其“看哪幀、注意哪個區域、想什么”。

這一理念構成了Open-o3 Video的訓練核心:雙階段學習機制——冷啟動預訓練基于GSPO的強化學習

在冷啟動階段,模型首先通過STGR-CoT-30k數據進行監督微調。

此階段的目標是讓模型掌握推理格式與輸出規范,即如何在回答中同時生成、、等結構化標記,并學會將推理鏈與視頻內容對應起來。

這一階段相當于“教模型說話”:它學習了如何用語言描述視覺證據,但尚未形成自發的證據選擇策略。

換言之,冷啟動階段讓模型具備了“生成有跡可循答案的能力”,而下一個階段要做的,是讓這種能力變得準確、穩定、可推廣。

在第二階段,團隊引入強化學習框架GSPO。

比起廣泛應用的GRPO,GSPO基于序列進行優化,更有利于長期訓練的穩定,避免思維鏈的崩潰。

這一階段,模型被要求在開放視頻場景中生成完整的時空推理序列,然后通過獎勵函數進行自我校正。獎勵函數由三部分組成:

r_acc衡量答案的正確性;r_thk則反映推理鏈的合理性和完整性,鼓勵模型在生成思考文本時對視覺證據進行充分利用,如計算時序IoU和空間IoU等指標, r_fmt評估推理格式是否符合規范。

團隊特別強調,單一的準確率獎勵無法支撐多模態可解釋推理,因為模型可能“蒙對”答案卻忽略關鍵畫面;只有當推理的過程本身被納入優化目標,模型才會真正學會如何在視覺世界中進行思考。

然而,利用強化學習同時優化時序和空間兩個維度的定位能力是具有很大挑戰的,尤其注意到,空間獎勵(IoU)必須依賴于時間預測的準確性。

具體而言,如果時間預測錯誤,即使空間框位置正確,也無法和真值對應,即時間預測是訓練穩定性的前提。

但是,如果在時序獎勵預測中直接使用嚴格的時間約束,則在訓練初期模型往往得不到獎勵,導致學習停滯;如果始終使用寬松的約束,模型雖能得到獎勵,但時序上獎勵容易飽和,預測無法逐漸收斂到精確位置,這樣空間獎勵的計算還是不準確。

因此,團隊提出自適應時間臨近性機制,即在訓練過程中逐步調整時間獎勵的容忍范圍,具體公式如下:

隨著訓練進行,標準差從大逐漸調小,以實現這種從“粗定位”到“精定位”的收斂。

同時,本團隊提出時間門控機制,即在計算空間獎勵之前,首先檢查預測時間戳是否落在真實時間戳附近,只有在時間預測接近真值時(小于設定的閾值),才會計算對應幀上預測框與真值框的 IoU,否則空間獎勵為0。

通過這樣的訓練方式和獎勵設計,模型能夠以更穩定高效的方式訓練。

推理增強

△基于Open-o3 Video進行測試時擴展

團隊提出的時空證據可以作為一種可驗證的信號,應用于測試時擴展。

具體而言,在推理階段,模型生成多個獨立推理鏈,每個鏈包含時空證據。

從推理鏈中裁剪出對應的關鍵幀區域,并再次輸入模型進行與問題的相關性評分(0、1、2分,分別表示與問題不相關,可能對答題有幫助,對答題非常有幫助)。

每個回答根據其得分進行加權投票,最終輸出置信度最高的答案。

該機制有效避免投票被低質量思維鏈誤導,提高推理的準確性和魯棒性。

實驗結果

△時空推理基準測試集表現

Open-o3 Video在多個視頻推理與理解基準上均取得顯著性能。

首先,團隊在時空推理的基準 V-STAR上測試,該基準綜合考察了模型在 “何物(what)—何時(When)—何地(Where)” 三個維度上的性能。

可以看到,Open-o3 Video在Temporal IoU(時間對齊)與Visual IoU(空間對齊)兩項上都取得顯著提升,整體mAM提升+14.4%、 mLGM提升+24.2%,超越GPT-4o與Gemini-2-Flash等大型閉源模型,充分證明其在時空聯合定位與推理一致性上的顯著優勢!

△視頻理解和時序定位數據集表現

再者,在VideoMME、WorldSense、VideoMMMU與TVGBench四個基準測試上,Open-o3 Video穩定超越基線模型和眾多視頻推理模型。

其在 VideoMME-Long 子任務上達到54.9 %,顯著提升4.1 %;在WorldSense和VideoMMMU偏感知的任務中都相較于基線模型有超越3%的提升,在 TVGBench上mIoU達到20.8,也提升4.5%。

這些結果表明,Open-o3 Video不僅在需要復雜推理的時空任務上表現突出, 在傳統的視頻識別與時間定位任務中也展現了強大的泛化能力。

更重要的是,得益于其顯式的證據鏈設計,模型生成的答案具有可驗證性,在同等準確率下提供了更高的可解釋性與可靠性。

△消融實驗

為進一步驗證不同訓練環節、數據構成及獎勵機制對模型性能的影響,團隊進行了系統性的消融研究

實驗結果如表所示,全面評估了訓練策略、獎勵設計、數據類型及數據規模等因素對時空推理性能的貢獻。

從表3可以看出,雙階段訓練機制(SFT + RL) 對模型性能的提升至關重要。

在僅依賴監督學習(Pure SFT)的情況下,模型已能初步學習帶時空標注的推理格式,但整體性能仍受限于固定標簽的模仿。

而單獨的強化學習(Pure RL, GSPO)雖能提升時間與空間一致性,但未經CoT數據的訓練,性能提升有限。

兩者結合后,模型在mAM 和mLGM 上分別提升至33.7%和46.6%。

這表明冷啟動階段的結構化監督提供了必要的推理模板,而基于GSPO的強化階段則進一步優化了模型的時空對齊與證據指向,從而實現穩定而可解釋的推理能力。

表4則展示了兩項關鍵獎勵機制:自適應時間臨近(Adaptive Temporal Proximity) 與時間門控(Temporal Gating)的作用。

若移除自適應臨近機制(w/o Ada.),模型的mLGM下降1.4%;若不使用門控(w/o Gat.),性能下降1.7%。

這印證了團隊的設計初衷:時間臨近機制能緩解訓練初期獎勵稀疏的問題,而門控策略能避免模型在錯誤時間幀上誤判無關物體。

二者的結合有效保障了獎勵信號的密集性與精確性,使模型能逐步收斂到真正的時空一致推理模式。

表5進一步驗證了時空標注數據的重要性。

在移除時空標注樣本的條件下(w/o spatio-temporal data),模型性能顯著下降至 mAM 28.3/mLGM 36.2;當引入現有的VideoEspresso數據后雖略有提升,但仍不及團隊自建的高一致性語料。

當使用完整的STGR標注數據時,mLGM達到46.6,說明模型確實從統一的時空監督中學到了穩健的定位與推理能力。這也間接驗證了STGR數據在語言、空間與時間三維一致性上的價值。

表6探討了通用視頻問答數據量對模型整體表現的影響。

實驗表明,適度的通用QA樣本能有效平衡模型的語言生成與證據定位能力。當額外加入15k條通用VideoQA樣本時,模型實現了最佳平衡。

若進一步擴大數據規模,性能反而出現輕微下降,說明過多的通用樣本會稀釋時空標注的監督信號。

因此,團隊最終采用了15k規模的混合數據配置,以在可解釋推理與通用問答之間取得最優折中。

綜上,消融實驗全面驗證了Open-o3 Video的三項核心設計理念,統一的時空數據、雙階段訓練機制與自適應獎勵策略,在提升模型可解釋性與可靠性方面的顯著貢獻。

正是這些設計,使模型能夠在復雜視頻場景中穩定生成“有跡可循”的推理鏈,實現真正基于證據的多模態推理

△驗證時空證據

表7的結果可以看到,在WorldSense與VideoMMMU兩個測試基準上,基于置信度的測試時擴展策略帶來穩定提升,均優于單一推理(Base)與簡單多數投票(Majority Voting)方案。

這表明,顯式的時空證據不僅能在訓練階段提供監督信號,也能在推理階段作為可靠的置信度衡量指標,幫助模型在多樣化思維路徑間做出更穩健的判斷。

然而,通過并行生成多個回復,團隊也觀察到:面對相對困難的問題,當前模型在實際運行中生成的高質量推理軌跡相對較少。

這意味著,模型的時空證據提取仍有待進一步改進,尤其是在更長的視頻和更復雜多變的場景中,這也是未來開源社區值得深入探索的重要方向。

可視化結果

Open-o3 Video能夠在推理中提供時間與空間證據(時間戳和目標框),以支持其推理的思路和最終的答案,具體可體現在以下可視化實例中:

這些示例分別體現了Open-o3 Video在處理物體外觀識別,動作意圖分析,以及天氣推理上的突出性能。

模型表現上完全不遜色于其他推理模型,且能夠提供一定的證據支撐,讓回復更加直觀可靠,易于驗證。

下面再看看Demo展示。

團隊相信,Open-o3 Video將推動視頻多模態模型從“能答對”走向“能定位,能解釋”,讓機器真正具備在時空維度上進行有跡可循推理的能力。

未來,團隊將繼續完善時空推理數據與后訓練機制,為更長視頻,更復雜場景下的問答提供有利的時空證據支撐。

另外,團隊論文、代碼和模型全部開源,歡迎大家交流討論!

論文鏈接:https://huggingface.co/papers/2510.20579

代碼鏈接:https://github.com/marinero4972/Open-o3-Video

模型鏈接:https://huggingface.co/marinero4972/Open-o3-Video

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-26 07:10:00

2025-06-06 14:17:11

模型訓練AI

2024-11-19 15:00:00

模型開源

2025-05-26 09:05:00

2024-09-06 13:00:29

2024-08-30 14:35:00

2025-08-07 14:05:40

OpenAI大模型開源

2024-08-15 15:45:00

AI訓練

2025-03-12 10:38:05

2025-04-03 09:34:36

2024-11-12 14:00:00

AI編程

2025-04-08 02:26:00

2025-11-04 08:42:27

2024-07-23 09:20:35

2025-04-11 09:10:00

模型開源AI

2024-06-21 13:04:43

2025-01-08 09:00:00

訓練數據研究

2025-05-27 15:59:41

AI工具模型

2024-05-21 12:23:17

2024-09-29 13:07:16

點贊
收藏

51CTO技術棧公眾號

免费观看黄色网| 欧美国产日韩一区| 国产一区在线观看视频| 欧美午夜在线| 免费高清在线| 艳母动漫在线免费观看| 亚洲女人天堂视频| 国产精品久久久久影视| 99精品美女| 1024在线播放| 91丨porny丨探花| 久久91精品国产91久久跳| 91久色porny| 欧美91大片| 亚洲美女炮图| 很黄很污的网站| 91原创国产| 亚洲精品福利免费在线观看| 91丨porny丨在线| 国产欧美日韩影院| 久久久久狠狠高潮亚洲精品| 亚洲综合精品自拍| 欧美精选视频在线观看| 菠萝菠萝蜜在线视频免费观看| 精品嫩模一区二区三区| 国产999精品| 日韩免费视频一区二区| 九九在线精品视频| 自拍偷拍欧美一区| 密臀av在线| 久草福利在线| 大香煮伊手机一区| 亚洲综合精品一区二区| 亚洲精品一线二线三线| 亚洲国产mv| 咪咪网在线视频| 午夜3点看的视频| 嫩草影院中文字幕| 成人美女免费网站视频| 欧美区在线播放| 日韩欧美电影在线| 午夜一区二区三区在线观看| 狠狠色狠狠色综合系列| 夜夜嗨网站十八久久 | 日韩成人在线电影网| 裸体一区二区三区| 国产青青草在线| 国产精品h视频| 国产伦精品一区二区三区免费视频| 欧美亚洲视频一区二区| 亚洲欧美中文日韩v在线观看| 91污片在线观看| 翔田千里一区二区| 九九视频精品全部免费播放| h片视频在线观看| 翔田千里在线视频| 欧美少妇性生活视频| 先锋影音一区二区三区| 国产一区二区色| 欧美精品video| 久久综合网hezyo| 中日韩美女免费视频网址在线观看| 欧美精品电影在线播放| 91国产精品成人| 91麻豆精品国产自产在线| 亚洲国产一二三| 国产高清成人在线| 久久性感美女视频| 污视频网站在线| 国产精品久久久久久久小唯西川 | 韩日欧美一区二区三区| 天天精品视频| 亚洲成人免费| 亚洲国产精品综合久久久| 久久久久久久久99精品大| 91久久高清国语自产拍| 欧美精品一区二区三区中文字幕 | 亚洲综合色在线观看| 国产一二三区在线播放| 人妻少妇精品久久| 日韩中文字幕三区| 四色永久网址| 蜜桃tv在线播放| 影音先锋男人资源在线| 毛片视频免费观看| 视频一区二区视频| 69av在线视频| 欧美日韩亚洲丝袜制服| 欧美日韩中文字幕在线| 日韩欧美国产一区二区三区 | 国产高清亚洲一区| 美女在线一区二区| 麻豆精品久久精品色综合| 免费成人av在线| 国产欧美久久久精品影院 | 你懂的一区二区三区| 日本成人小视频| 在线亚洲伦理| 久久夜色精品国产噜噜av| 亚洲成人777| 亚洲女人被黑人巨大进入| 午夜欧美不卡精品aaaaa| 8x海外华人永久免费日韩内陆视频| 热久久免费视频精品| 青草青草久热精品视频在线观看| 亚洲精品国产免费| 在线电影欧美成精品| 社区色欧美激情 | 成人免费在线视频网站| 青草全福视在线| 一级特黄视频| 最新日韩三级| 久久国产成人午夜av影院宅| 三级久久三级久久久| 久久久久久久综合| 日韩免费观看高清完整版在线观看| 在线视频免费一区二区| 国产精自产拍久久久久久蜜| 日本高清不卡三区| 天天综合网日韩| 欧美bbbxxxxx| 精品一区免费| 要久久电视剧全集免费| 国产精品亚洲综合一区在线观看| 一区二区欧美视频| 日韩亚洲第一页| 亚洲人成人77777线观看| av动漫在线看| 国产精品久久a| 久香视频在线观看| www.久久| 免费在线亚洲| 欧美中文字幕一区二区三区亚洲| 欧美xxxx14xxxxx性爽| 午夜精品一区二区在线观看的| av免费看大片| 久久综合社区| 国产精品12区| 日韩av一区在线观看| 国产精品二区在线观看| 男男gay免费网站| 日韩在线你懂得| 久久久久9999亚洲精品| 中文字幕日韩综合av| 日韩一级片一区二区| 日本高清在线观看| 欧美午夜久久| 欧美裸体一区二区三区| 成人黄色免费片| 97在线观看免费高清视频| 日韩一区亚洲二区| 激情伊人五月天久久综合| 日韩精品久久久久| 国产一区免费观看| 欧美国产日韩在线| 国产精品免费网站| 欧美aaaaaa午夜精品| 日韩在线一二三区| eeuss影院在线播放| 91免费国产网站| 国产91精品黑色丝袜高跟鞋| 天堂色在线视频| 教室别恋欧美无删减版| 5858s免费视频成人| 青青草精品视频在线观看| 欧洲精品99毛片免费高清观看 | 国产日韩av一区二区| 一本色道久久88亚洲综合88| 久久婷婷国产91天堂综合精品| 日韩在线观看中文字幕| 欧美视频在线观看免费网址| 国产av熟女一区二区三区| 欧美精品羞羞答答| 国产精品麻豆欧美日韩ww| 啪一啪鲁一鲁2019在线视频| 国产精品一卡二卡三卡 | 国产精品黄色片| 色www精品视频在线观看| 亚洲成人动漫在线| 福利片一区二区| 亚洲成av人乱码色午夜| 黄色成人免费观看| 国产成人综合亚洲网站| 99精品视频网站| 欧美好骚综合网| 操人视频在线观看欧美| 99青草视频在线播放视| 国产日韩成人精品| 宅男噜噜噜66国产免费观看| 国产精品久久久免费| 91高清视频免费观看| 亚洲优女在线| 欧美videofree性高清杂交| 青青草免费在线| 欧美肥妇毛茸茸| 国产精品视频一区二区久久| 欧美精品一级二级| 日本成年人网址| 久久久精品tv| 亚洲一区 在线播放|