真·實測:多圖合成pose隨意擺,視頻實時對話,1分鐘7種語言絲滑切換,意外發現:訓練數據截止到去年 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
就在今天,通義千問團隊帶著新品來炸街了。
網友看完之后,都替美國的AI焦慮起來了:
如果美國實驗室不開始在開放權重上競爭,中國模型可就要壟斷人工智能市場。
圖片
那么,作為千問系列里首個端到端原生全模態(文本、圖像、音頻、視頻)的通用大模型,Qwen3-Omni 究竟如何呢?
圖片
多語種切換:絲滑程度不輸GPT-5
Qwen3-Omni 是基于 Qwen3 的原生全模態大語言模型。它在文本和視覺模態上均無性能損失,在32個基準測試中達到開源最優水平,并在36個音頻及音視頻基準測試中的22個實現整體最優,表現超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等強大的閉源模型。
這一次新模型Omini的發布有一項主打的能力就是多語種自由切換。
這項能力非常重要,比如你收聽國內外知名大佬同臺發表的一些中英文并存的觀點時,又或者工作中,一位操著東北或四川口音的朋友跟你嘮嗑:
昨天開會噻(四川話),大家覺得 delay 兩周比較合適。
又或者單純有的朋友不自覺得,在中文里摻點英文:
Anyway,它有的時候是真的不work。
這里有一個問題,為什么包括OpenAI、谷歌在內,大家都在卷跨/多語種理解和切換的能力?
小編認為,這是因為跨語種理解問題本質上是在考驗大模型跨模態泛化能力。
不同語言是不同“編碼體系”。而模型能自由切換,說明它具備了某種 跨模態映射能力(把不同符號系統映射到同一語義空間)。
這種能力不僅有助于語言,還能遷移到 跨模態任務(語音→文字→圖像→動作)。
此外,一句話充斥著多種語種,也可以看出大模型對語言的上下文建模和語義對齊能力是否足夠強,是否具備真正的泛化理解力。
因此,來都來了,小編當然不會放過測試它的機會。

小編除了英語、沒有其他特別能扯的外語了,所以就把能想起來的語種,比如日語(扣你急哇)、韓語(康桑阿米達)、法語(蹂嗎),甚至連“瓜娃子”的四川話都飆出來了,總之,能實驗的都實驗了一番。
結果還是非常滿意的,我打9分,感覺 Omni 反應非常絲滑,無縫切換。
視頻通話:實時畫面理解不錯
視頻通話方面,由于谷歌的Gemini類似功能發布在前,所以沒有特別驚艷的地方。不過,我發現一個有意思的地方,就是Qwen3-Omni在對話中,會主動根據你對話時所處的環境、動作來分析理解你的行為和意圖,并主動跟你聊天。
比如在上一個測試開始時,它就快速捕捉到我再用手機拍攝電腦中的自己,率先對我發起了搭訕:
你是在用手機自拍嗎?(瞬間小編感覺有點被反向測試了~)
大家不妨自己親自試一試。蠻有意思的。
多說一嘴,Omni設置有多種有趣的聲音可供選擇,包括:
Dylan:在北京胡同里長大的青少年
Peter :天津相聲,專業陪唱
Cherry : 一位陽光、積極、友好、自然的年輕女士
Ethan: 一個陽光、熱情、精力充沛、充滿活力的男孩
Eric:一位與眾不同的四川成都人
Jada:來自上海的火辣姐姐
解鎖多圖合成:葉凡換裝,成了
上周,熱播動漫《遮天》葉凡除了新皮(衣)膚(服),然后有在吃午飯的時候刷到了熱播劇《赴山海》,那個蕭秋水的粉里粉氣扎小辮的少年造型著實把我萌化了,想著這倆畫面,瞬間就來了一個不錯的測試題目。
小編先在手機上涂鴉了一個比耶的手勢,然后就把下面三張圖甩給了Omni-Flash,打開圖像編輯功能,給它一句話:
圖1主體人物穿上圖2里的衣服,擺出圖3的pose。
小編一邊問,還一邊期待這三張圖合并之后會有什么神奇的效果。
圖片
不出2分鐘,Omni 給我答案了。第一眼看上去,雖然有點別扭,但沒有抽盲盒,第一張圖就能準確理解我的意圖,尤其圖3我的那個手勢其實并不容易識別出來。總之,效果還是打80分的,絕對夠用了。
圖片
你看瘦的有些不協調了,不過沒關系,繼續點擊編輯,給個prompt:
身體跟頭部相比有點偏瘦,稍微改大概壯實一些。
圖片
一下,就出來效果了,這肌肉沒誰了~我權且給它取個名字:蕭秋水裝版葉凡。
這也是圖片生成領域,各大模型廠商在卷的方向,多張參考圖合成自己所需要的畫面。也值得大家上手一番。
為什么可以做到這樣的效果?
其實,體驗下來不難發現,最大的兩個點就是:音視頻更加絲滑(延遲很低),跨模態之間信息的理解力更強了。
根據Github上的官方介紹,Qwen3-Omini模型實現了原生多模態支持。在保持強大音頻、音頻-視頻效果的同時,單模態的文本與圖像性能不下降。
具體來講,在 36 項音頻/視頻基準中,22 項達到 SOTA(最先進水平),開源 SOTA 達到 32 項;在語音識別(ASR)、音頻理解和語音對話上表現可與 Gemini 2.5 Pro 相比。
多語種支持:支持 119 種文本語言、19 種語音輸入語言、10 種語音輸出語言。
- 語音輸入:英語、中文、韓語、日語、德語、俄語、意大利語、法語、西班牙語、葡萄牙語、馬來語、荷蘭語、印尼語、土耳其語、越南語、粵語、阿拉伯語、烏爾都語。
- 語音輸出:英語、中文、法語、德語、俄語、意大利語、西班牙語、葡萄牙語、日語、韓語。
圖片
此外值得一提的是,Qwen團隊在模型架構方面也做出了不小的創新,從底層的角度解釋了延遲低、泛化能力更強的原因。
創新架構:基于 MoE 的 Thinker–Talker 設計,結合 AuT 預訓練以獲取更強泛化表示;采用多碼本設計,將延遲降至最低。
在Qwen官方X賬號上,這樣來描述這款模型:
該模型實現了統一文本、圖像、音頻和視頻于一個模型中,而無需在模態間做取舍!小編想,這可能也是包括GPT-5、Gemini 2.5 Pro唯二產品可以做到的水平吧。
意外發現:訓練數據截止到2024年
測試過程中,小編還發現一個Omni的秘密:它的訓練數據時間,應該截止到去年。因為我在視頻對話過程中問道:現在是哪一年,北京時間是幾點?
它回答我是2024年XX月XX日XX點XX分。小編當時就把它調侃了一番:
那我是來自2025年的未來人,你是過去人。

雖然因為暫時沒有實時聯網的原因,Beta版的Omni視頻對話功能,表現出來的情商非常高。
他回答我:怎么可能,我們都在2024年呀,雖然未來人是一個很有趣的概念,但我們最終還是要討論現在的問題。
此外,小編其實還做了ChatGPT的語音對話的測試,因為推出時間已經過去一年了,所以不管是多語種切換、還是實時時間等問題,明顯還是GPT-5更絲滑。
但有一項是Qwen3-Omni明顯占優勢的:那就是有趣的中國方言,GPT-5始終講不出來,哈哈~
給千問團隊刷一波火箭,撒花。
對了,朋友們可以自己實測一波:
傳送門:??https://chat.qwen.ai/??
本文轉載自??51CTO技術棧??,作者:云昭

















