如何使用騰訊混元視頻生成模型，騰訊混元視頻怎么樣？一手實(shí)測

AI教程 2025-04-29

01 鵝廠已就位

鵝廠，終于推出自己的AI視頻了——「混元視頻模型」。

最近，受邀參加混元視頻模型的內(nèi)測。周末連肝兩天，從早肝到晚，肝了累計(jì)有300多支視頻吧。

先說結(jié)論：作為鵝廠交出的第一版（文生視頻、5s），總體質(zhì)量非常高。在指令遵循、動(dòng)態(tài)和畫面穩(wěn)定性、鏡頭語言、寫實(shí)質(zhì)感、物理遵循等方面表現(xiàn)不錯(cuò)，抽卡很少。

甚至，在一些鏡頭轉(zhuǎn)換、動(dòng)作特效、科幻/魔幻風(fēng)格、抽象理解等方面，還有驚喜表現(xiàn)。

請(qǐng)看VCR：

體驗(yàn)路徑：騰訊元寶APP-AI應(yīng)用-AI視頻。

02 實(shí)測10個(gè)風(fēng)格、30個(gè)Case

為了系統(tǒng)的測測混元視頻模型的質(zhì)量，當(dāng)然相比那些專業(yè)評(píng)測基準(zhǔn)，也不算很系統(tǒng)。只是我個(gè)人認(rèn)為比較重要也是大家經(jīng)常會(huì)用到的一些風(fēng)格場景，我把他們分成了10個(gè)板塊來測。

這10個(gè)風(fēng)格分別是：特寫、寫實(shí)、人物、動(dòng)物、科幻、特效、動(dòng)畫、藝術(shù)/抽象、運(yùn)動(dòng)、多人場景/大場面/多鏡頭。

每個(gè)風(fēng)格，分別設(shè)計(jì)3~5個(gè)提示詞，讓混元出視頻，進(jìn)行測評(píng)。

提示詞部分，我自己先想一個(gè)idea，用一句話描述，然后讓AI幫我優(yōu)化、擴(kuò)寫。AI優(yōu)化后的提示詞，我自己再改改，基本上就可以發(fā)給模型開始跑了。

提示詞框架，大體上離不開這幾個(gè)模板。

模板1：提示詞=主體+場景+運(yùn)動(dòng)
模板2：提示詞=主體（主體描述）+場景（場景描述）+運(yùn)動(dòng)（運(yùn)動(dòng)描述）+（鏡頭語言）+（氛圍描述）+（風(fēng)格表達(dá)）
模板3：提示詞=主體+場景+運(yùn)動(dòng) + (風(fēng)格表達(dá)) + (氛圍描述) + (運(yùn)鏡方式) + (光線) +（景別）

重點(diǎn)關(guān)注 主體+場景+運(yùn)動(dòng) 即可，其他部分如果不太會(huì)描述，也可以通過后臺(tái)提供的標(biāo)簽來選擇。

話不多說，我們直接來看看跑的Case。

Ps.所有Case都由我自己實(shí)測，不含任何官方的demo。

（1）寫實(shí)

寫實(shí)，幾乎是視頻模型必測的風(fēng)格了。主要看模型對(duì)不同場景、人物表情、人物動(dòng)作、紋理細(xì)節(jié)以及光影變化的生成效果，看他們是否與真實(shí)世界保持一致。

1）一只啄木鳥正在樹上啄洞，寫實(shí)風(fēng)格。

2）一個(gè)中國美女穿著漢服，頭發(fā)隨風(fēng)飄揚(yáng)。然后鏡頭切換到正面特寫。背景是張家界。

3）一只戴紅圍巾的企鵝在花海散步，紅圍巾與花海色彩形成鮮明對(duì)比。背景的花海隨風(fēng)輕擺，花瓣飄落，晨露閃爍。

4）超長焦橫移，工業(yè)廢棄廠房，主光從碎裂天窗滲入，自然光。

（2）特寫

特寫，是視頻模型比較擅長的風(fēng)格。各家模型比拼的關(guān)鍵在于對(duì)細(xì)節(jié)的呈現(xiàn)能力，比如物體運(yùn)動(dòng)細(xì)節(jié)、人物肢體細(xì)節(jié)、人臉表情細(xì)節(jié)、畫面質(zhì)量細(xì)節(jié)等。

一個(gè)好的特寫鏡頭，很容易拉近觀眾與主角的距離，讓觀眾身臨其境。

5）一名男子驚恐地望著遠(yuǎn)方，背景是一座正在燃燒和爆炸的城市。鏡頭對(duì)準(zhǔn)男子的臉，捕捉到他驚恐的表情。

6）鏡頭慢慢推近。背景是一個(gè)小巧而溫馨的客廳，一位年輕女子坐在沙發(fā)上，全神貫注地讀書。一個(gè)冒著熱氣的茶杯放在咖啡桌上。

7）一只奇怪而可怕的遠(yuǎn)古生物在泥土中爬行。

（3）人物

人物，主要看視頻模型對(duì)人的膚色、肢體動(dòng)作、表情動(dòng)作以及衣著呈現(xiàn)的真實(shí)性，也是我們作為人類最容易識(shí)別出AI真假的地方。

但話又說回來，文生視頻在人物方面的表現(xiàn)上都不太占優(yōu)。要想人物表現(xiàn)更穩(wěn)定、真實(shí)和一致，一般得通過圖生視頻來生成。

8）一個(gè)小男孩正在全神貫注地組裝積木。

9）一個(gè)小女孩拿著氣球，慢慢的往前跑。

10）一個(gè)男人坐在沙發(fā)上看電視，然后雙手抱頭，表情非常驚訝。

（4）動(dòng)物

相對(duì)人物來說，各家視頻模型在動(dòng)物上的表現(xiàn)都要好很多。但前提是你的動(dòng)物得“大膽”地動(dòng)起來，而不是只將畫面放大、縮小。

從我跑的多支Case來看，混元視頻模型在動(dòng)物寫實(shí)上非常不錯(cuò)，有點(diǎn)紀(jì)錄片的味道了。

11）非洲草原上，一只獵豹正在極速奔跑，追逐一頭羚羊。

12）大興安嶺，一只老虎正在極速奔跑，背景是皚皚白雪的森林。

13）故宮紅墻前的樹枝上，一只喜鵲正在覓食。

（5）科幻、魔幻、玄幻

科幻、魔幻、玄幻等幻想風(fēng)格，是吸引很多人用AI做視頻的重要原因，當(dāng)然也包括我。

幻想風(fēng)格，特別考驗(yàn)視頻模型的數(shù)據(jù)集和泛化能力（指模型對(duì)新的、未見過的數(shù)據(jù)的表現(xiàn)能力），能否把一些幻想場景給展示出來，比如光影變化、色彩變化、變形特效、動(dòng)作特效等。

這部分，我Case放得最多?？紤]到視頻轉(zhuǎn)圖被壓縮，部分case我直接放了原視頻。

14）一艘飛船正在穿過小行星帶。

15）一艘飛船正在穿過時(shí)光隧道，周圍是五彩斑斕的光線。

16）兩個(gè)巨型機(jī)器人在城市中激戰(zhàn)，每一次碰撞都產(chǎn)生巨大的沖擊波，將附近的建筑震成碎片。

17）昏暗的走廊，一支海軍陸戰(zhàn)隊(duì)正在穿過廢棄的走廊。

18）在若隱若現(xiàn)的云端，烏云密布，電閃雷鳴。突然一條巨龍從云層穿過，飛奔而來。

這想象力，估計(jì)混元一定“看”了很多次權(quán)游。

（6）特效

特效，Special Effects，是電影、電視中最重要的視覺藝術(shù)，常見特效如爆炸、煙霧、火焰、極速等。

特效鏡頭，也是主要考驗(yàn)視頻模型的泛化能力，看模型對(duì)指令的遵循程度以及細(xì)節(jié)表現(xiàn)能力。

19）暴風(fēng)雪中，一列蒸汽火車在崎嶇山間穿行，黑煙從車頭直沖云霄，車廂在皚皚白雪中留下深邃軌跡。

20）在一座破舊的倉庫內(nèi)部，突然發(fā)生一場爆炸。

21）霧蒙蒙的夜晚，明亮的月光，一艘中世紀(jì)的帆船在海上航行，充斥著詭異的氛圍。

22）五顏六色的水母在海底自由自在地游動(dòng)。它們身體呈現(xiàn)出透明的藍(lán)色、紫色和粉色，在水中散發(fā)出迷人的光芒。

（7）動(dòng)畫

動(dòng)畫，主要看模型對(duì)各種風(fēng)格的支持和審美，比如2D、3D、矢量、黏土、水墨、宮崎駿、迪士尼等。

先來一個(gè)Sora的提示詞。

23）Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

再來看看宮崎駿風(fēng)格。

24）一片奇幻花園映入眼簾?；▓@里長著各種奇花異草，它們形態(tài)各異，顏色繽紛。在花園中，還生活著一群活潑可愛的小精靈，它們身著五顏六色的衣服，在花草間嬉戲玩耍。吉卜力動(dòng)畫風(fēng)格，讓人仿佛置身于宮崎駿創(chuàng)造的夢幻世界中。

（8）藝術(shù)/抽象

藝術(shù)風(fēng)格，主要考驗(yàn)視頻模型對(duì)圖形、空間、色彩和受力變化的抽象理解。測了幾個(gè)case，沒想到混元也能做一些抽象的藝術(shù)視頻。

25）粒子旋轉(zhuǎn)，匯聚成抽象的形態(tài)。

26）不同顏色組成不規(guī)則圖形，緩慢旋轉(zhuǎn)。

27）5度斜角固定鏡頭，淺景深對(duì)焦，紫紅霓虹燈與青色全息投影交織。畫面中央的機(jī)械舞者著裝前衛(wèi)，張開雙臂，向觀眾致謝。

（9）運(yùn)動(dòng)

運(yùn)動(dòng)，被視為視頻模型皇冠上的明珠，因?yàn)樗罹咛魬?zhàn)性。

要想生成符合真實(shí)世界物理運(yùn)動(dòng)的視頻，模型對(duì)空間位置關(guān)系的理解，對(duì)不同物體受力變化、形態(tài)的處理，以及對(duì)不同物體、不同運(yùn)動(dòng)的語義理解，都要有相當(dāng)深的技術(shù)，才能生成出遵循物理規(guī)則的視頻。

28）日落時(shí)分的越野賽道，改裝過的福特F-150猛禽呼嘯而過。加高的懸掛讓碩大的防爆輪胎在泥地上肆意翻飛，泥漿飛濺在防滾架上形成斑駁圖案。車身貼花在金色陽光下閃閃發(fā)亮，機(jī)械增壓器的呼嘯聲與排氣轟鳴交織。

29）慢動(dòng)作回旋鏡頭，雷暴天氣伴隨著閃電，一位英姿颯爽的中國俠客在雨中舞劍。背景是一片竹林。

30）一輛越野車在險(xiǎn)峻的山腰上行駛，遠(yuǎn)處的貢嘎雪山在視覺上緩緩升起逐漸清晰。