如何使用騰訊混元視頻生成模型,騰訊混元視頻怎么樣?一手實(shí)測

AI教程 2025-04-29

01 鵝廠已就位

鵝廠,終于推出自己的AI視頻了——「混元視頻模型」。

最近,受邀參加混元視頻模型的內(nèi)測。周末連肝兩天,從早肝到晚,肝了累計(jì)有300多支視頻吧圖片。

先說結(jié)論:作為鵝廠交出的第一版(文生視頻、5s),總體質(zhì)量非常高。在指令遵循、動(dòng)態(tài)和畫面穩(wěn)定性、鏡頭語言、寫實(shí)質(zhì)感、物理遵循等方面表現(xiàn)不錯(cuò),抽卡很少。

甚至,在一些鏡頭轉(zhuǎn)換、動(dòng)作特效、科幻/魔幻風(fēng)格、抽象理解等方面,還有驚喜表現(xiàn)。

請(qǐng)看VCR:

體驗(yàn)路徑:騰訊元寶APP-AI應(yīng)用-AI視頻。

02 實(shí)測10個(gè)風(fēng)格、30個(gè)Case

為了系統(tǒng)的測測混元視頻模型的質(zhì)量,當(dāng)然相比那些專業(yè)評(píng)測基準(zhǔn),也不算很系統(tǒng)。只是我個(gè)人認(rèn)為比較重要也是大家經(jīng)常會(huì)用到的一些風(fēng)格場景,我把他們分成了10個(gè)板塊來測。

這10個(gè)風(fēng)格分別是:特寫、寫實(shí)、人物、動(dòng)物、科幻、特效、動(dòng)畫、藝術(shù)/抽象、運(yùn)動(dòng)、多人場景/大場面/多鏡頭

每個(gè)風(fēng)格,分別設(shè)計(jì)3~5個(gè)提示詞,讓混元出視頻,進(jìn)行測評(píng)。

提示詞部分,我自己先想一個(gè)idea,用一句話描述,然后讓AI幫我優(yōu)化、擴(kuò)寫。AI優(yōu)化后的提示詞,我自己再改改,基本上就可以發(fā)給模型開始跑了。

提示詞框架,大體上離不開這幾個(gè)模板。

  • 模板1:提示詞=主體+場景+運(yùn)動(dòng)
  • 模板2:提示詞=主體(主體描述)+場景(場景描述)+運(yùn)動(dòng)(運(yùn)動(dòng)描述)+(鏡頭語言)+(氛圍描述)+(風(fēng)格表達(dá))
  • 模板3:提示詞=主體+場景+運(yùn)動(dòng) + (風(fēng)格表達(dá))  + (氛圍描述) + (運(yùn)鏡方式) + (光線) +(景別)

重點(diǎn)關(guān)注 主體+場景+運(yùn)動(dòng) 即可,其他部分如果不太會(huì)描述,也可以通過后臺(tái)提供的標(biāo)簽來選擇。

話不多說,我們直接來看看跑的Case。

Ps.所有Case都由我自己實(shí)測,不含任何官方的demo。

(1)寫實(shí)

寫實(shí),幾乎是視頻模型必測的風(fēng)格了。主要看模型對(duì)不同場景、人物表情、人物動(dòng)作、紋理細(xì)節(jié)以及光影變化的生成效果,看他們是否與真實(shí)世界保持一致。

1)一只啄木鳥正在樹上啄洞,寫實(shí)風(fēng)格。

2)一個(gè)中國美女穿著漢服,頭發(fā)隨風(fēng)飄揚(yáng)。然后鏡頭切換到正面特寫。背景是張家界。

3)一只戴紅圍巾的企鵝在花海散步,紅圍巾與花海色彩形成鮮明對(duì)比。背景的花海隨風(fēng)輕擺,花瓣飄落,晨露閃爍。

4)超長焦橫移,工業(yè)廢棄廠房,主光從碎裂天窗滲入,自然光。

(2)特寫

特寫,是視頻模型比較擅長的風(fēng)格。各家模型比拼的關(guān)鍵在于對(duì)細(xì)節(jié)的呈現(xiàn)能力 ,比如物體運(yùn)動(dòng)細(xì)節(jié)、人物肢體細(xì)節(jié)、人臉表情細(xì)節(jié)、畫面質(zhì)量細(xì)節(jié)等。

一個(gè)好的特寫鏡頭,很容易拉近觀眾與主角的距離,讓觀眾身臨其境。

5)一名男子驚恐地望著遠(yuǎn)方,背景是一座正在燃燒和爆炸的城市。鏡頭對(duì)準(zhǔn)男子的臉,捕捉到他驚恐的表情。

6)鏡頭慢慢推近。背景是一個(gè)小巧而溫馨的客廳,一位年輕女子坐在沙發(fā)上,全神貫注地讀書。一個(gè)冒著熱氣的茶杯放在咖啡桌上。

7)一只奇怪而可怕的遠(yuǎn)古生物在泥土中爬行。

(3)人物

人物,主要看視頻模型對(duì)人的膚色、肢體動(dòng)作、表情動(dòng)作以及衣著呈現(xiàn)的真實(shí)性,也是我們作為人類最容易識(shí)別出AI真假的地方。

但話又說回來,文生視頻在人物方面的表現(xiàn)上都不太占優(yōu)。要想人物表現(xiàn)更穩(wěn)定、真實(shí)和一致,一般得通過圖生視頻來生成。

8)一個(gè)小男孩正在全神貫注地組裝積木。

9)一個(gè)小女孩拿著氣球,慢慢的往前跑。

10)一個(gè)男人坐在沙發(fā)上看電視,然后雙手抱頭,表情非常驚訝。

(4)動(dòng)物

相對(duì)人物來說,各家視頻模型在動(dòng)物上的表現(xiàn)都要好很多。但前提是你的動(dòng)物得“大膽”地動(dòng)起來,而不是只將畫面放大、縮小圖片。

從我跑的多支Case來看,混元視頻模型在動(dòng)物寫實(shí)上非常不錯(cuò),有點(diǎn)紀(jì)錄片的味道了。

11)非洲草原上,一只獵豹正在極速奔跑,追逐一頭羚羊。

12)大興安嶺,一只老虎正在極速奔跑,背景是皚皚白雪的森林。

13)故宮紅墻前的樹枝上,一只喜鵲正在覓食。

(5)科幻、魔幻、玄幻

科幻、魔幻、玄幻等幻想風(fēng)格,是吸引很多人用AI做視頻的重要原因,當(dāng)然也包括我。

幻想風(fēng)格,特別考驗(yàn)視頻模型的數(shù)據(jù)集和泛化能力(指模型對(duì)新的、未見過的數(shù)據(jù)的表現(xiàn)能力),能否把一些幻想場景給展示出來,比如光影變化、色彩變化、變形特效、動(dòng)作特效等。

這部分,我Case放得最多??紤]到視頻轉(zhuǎn)圖被壓縮,部分case我直接放了原視頻。

14)一艘飛船正在穿過小行星帶。

15)一艘飛船正在穿過時(shí)光隧道,周圍是五彩斑斕的光線。

16)兩個(gè)巨型機(jī)器人在城市中激戰(zhàn),每一次碰撞都產(chǎn)生巨大的沖擊波,將附近的建筑震成碎片。

17)昏暗的走廊,一支海軍陸戰(zhàn)隊(duì)正在穿過廢棄的走廊。

18)在若隱若現(xiàn)的云端,烏云密布,電閃雷鳴。突然一條巨龍從云層穿過,飛奔而來。

這想象力,估計(jì)混元一定“看”了很多次權(quán)游。

(6)特效

特效,Special Effects,是電影、電視中最重要的視覺藝術(shù),常見特效如爆炸、煙霧、火焰、極速等。

特效鏡頭,也是主要考驗(yàn)視頻模型的泛化能力,看模型對(duì)指令的遵循程度以及細(xì)節(jié)表現(xiàn)能力。

19)暴風(fēng)雪中,一列蒸汽火車在崎嶇山間穿行,黑煙從車頭直沖云霄,車廂在皚皚白雪中留下深邃軌跡。

20)在一座破舊的倉庫內(nèi)部,突然發(fā)生一場爆炸。

21)霧蒙蒙的夜晚,明亮的月光,一艘中世紀(jì)的帆船在海上航行,充斥著詭異的氛圍。

22)五顏六色的水母在海底自由自在地游動(dòng)。它們身體呈現(xiàn)出透明的藍(lán)色、紫色和粉色,在水中散發(fā)出迷人的光芒。

(7)動(dòng)畫

動(dòng)畫,主要看模型對(duì)各種風(fēng)格的支持和審美,比如2D、3D、矢量、黏土、水墨、宮崎駿、迪士尼等。

先來一個(gè)Sora的提示詞。

23)Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

再來看看宮崎駿風(fēng)格。

24)一片奇幻花園映入眼簾?;▓@里長著各種奇花異草,它們形態(tài)各異,顏色繽紛。在花園中,還生活著一群活潑可愛的小精靈,它們身著五顏六色的衣服,在花草間嬉戲玩耍。吉卜力動(dòng)畫風(fēng)格,讓人仿佛置身于宮崎駿創(chuàng)造的夢幻世界中。

(8)藝術(shù)/抽象

藝術(shù)風(fēng)格,主要考驗(yàn)視頻模型對(duì)圖形、空間、色彩和受力變化的抽象理解。測了幾個(gè)case,沒想到混元也能做一些抽象的藝術(shù)視頻。

25)粒子旋轉(zhuǎn),匯聚成抽象的形態(tài)。

26)不同顏色組成不規(guī)則圖形,緩慢旋轉(zhuǎn)。

27)5度斜角固定鏡頭,淺景深對(duì)焦,紫紅霓虹燈與青色全息投影交織。畫面中央的機(jī)械舞者著裝前衛(wèi),張開雙臂,向觀眾致謝。

(9)運(yùn)動(dòng)

運(yùn)動(dòng),被視為視頻模型皇冠上的明珠,因?yàn)樗罹咛魬?zhàn)性。

要想生成符合真實(shí)世界物理運(yùn)動(dòng)的視頻,模型對(duì)空間位置關(guān)系的理解,對(duì)不同物體受力變化、形態(tài)的處理,以及對(duì)不同物體、不同運(yùn)動(dòng)的語義理解,都要有相當(dāng)深的技術(shù),才能生成出遵循物理規(guī)則的視頻。

28)日落時(shí)分的越野賽道,改裝過的福特F-150猛禽呼嘯而過。加高的懸掛讓碩大的防爆輪胎在泥地上肆意翻飛,泥漿飛濺在防滾架上形成斑駁圖案。車身貼花在金色陽光下閃閃發(fā)亮,機(jī)械增壓器的呼嘯聲與排氣轟鳴交織。

29)慢動(dòng)作回旋鏡頭,雷暴天氣伴隨著閃電,一位英姿颯爽的中國俠客在雨中舞劍。背景是一片竹林。

30)一輛越野車在險(xiǎn)峻的山腰上行駛,遠(yuǎn)處的貢嘎雪山在視覺上緩緩升起逐漸清晰。

(10)多人場景/大場面/多鏡頭

多人場景,涉及多人物動(dòng)作協(xié)調(diào)以及算力問題,目前基本上很多視頻模型都會(huì)崩,包括Gen3、可靈等。我們看看混元的效果如何。

31)鏡頭從騎著馬的騎士的腳步局部特寫開始緩緩上升,最終拍攝到騎士的面部,騎士面帶堅(jiān)毅的表情看向前方。背景是一個(gè)中世紀(jì)戰(zhàn)場,兩軍正在交戰(zhàn),人仰馬翻。

32)一堆人圍坐在篝火前,有說有笑,歡聲笑語。

10個(gè)風(fēng)格領(lǐng)域測完了,我們來做一個(gè)總結(jié):

1)混元模型對(duì)指令(也就是提示詞)比較遵循。后續(xù)大家在設(shè)計(jì)提示詞時(shí),建議一定要有強(qiáng)畫面邏輯,指令清晰,切勿堆砌一堆的修飾詞以及過多的主體詞。

不然反而會(huì)干擾模型的注意力,也就是模型DiT架構(gòu)的T,Transformer,自注意力機(jī)制。

2)動(dòng)態(tài)表現(xiàn)和畫面穩(wěn)定性很好。在我測的300多支視頻里,肯定有失敗的Case,但沒有一支視頻是在做PPT的放大或縮小。都是正常動(dòng)作,正常速度,很少有慢鏡頭、PPT動(dòng)畫。

3)對(duì)鏡頭語言理解到位。如果你指定是什么鏡頭和景別,模型便會(huì)嚴(yán)格遵循。如果沒有指定,模型則會(huì)根據(jù)提示詞自行理解,設(shè)計(jì)鏡頭,有時(shí)候能夠給人驚喜。

比如這個(gè),真的很nice。

提示詞:超大海浪,沖浪者在浪花上起跳,完成空中轉(zhuǎn)體。攝影機(jī)從海浪內(nèi)部穿越而出,捕捉陽光透過海水的瞬間。水花在空中形成完美弧線,沖浪板劃過水面留下軌跡。最后定格在沖浪者穿越水簾的完美瞬間。

4)5s視頻也能切鏡頭。在部分提示詞的場景下(通常為長提示詞),混元模型即使只有5s視頻,也能夠自動(dòng)切鏡頭。切鏡頭后,還能能夠保持主體一致性。

5)在科幻、魔幻、寫實(shí)紀(jì)錄片、特效、運(yùn)動(dòng)等風(fēng)格上表現(xiàn)出色,出片率很高。特別是魔幻風(fēng)格,很有權(quán)游的味道,推測應(yīng)該與鵝廠自家的視頻數(shù)據(jù)集有關(guān)。

6)抽卡次數(shù)少。如果指令清晰,有時(shí)候一次生成就能夠得到滿意的視頻。最不濟(jì)再生成3-5次,基本也能拿到心滿意足的視頻。

7)盡量照顧小白。在輸入框界面,提供了風(fēng)格、景別、光線、鏡頭運(yùn)動(dòng)以及多種模式(流暢運(yùn)鏡、豐富動(dòng)作、導(dǎo)演模式),小白也能快速上手。

別小看這些標(biāo)簽。在我測的過程中,這些標(biāo)簽對(duì)我的視頻效果幫助很大,特別是視頻風(fēng)格和運(yùn)鏡方面。

當(dāng)然,測試中也發(fā)現(xiàn)一些不足。

1)泛化能力有待提升。一些陌生、冷門、未訓(xùn)練的描述詞(比如主體、場景、動(dòng)作等),混元還無法識(shí)別,導(dǎo)致模型的創(chuàng)造力受到一定影響。

2)畫質(zhì)還需要提升,目前只有720P(是真的720P),雖然提供了“高品質(zhì)”模式,但對(duì)于專業(yè)創(chuàng)作者來說,還不太夠。

3)對(duì)本土人物的理解,還需要提升。如果提示詞里沒有注明“亞洲人”,模型通常會(huì)以歐洲人來生成。當(dāng)然,文生視頻本就不擅長人物主體的一致性,要想提升人物一致性還得等圖生視頻。另外,模型在情緒的展現(xiàn)上,也稍微弱一些。

03 寫在最后

經(jīng)過連續(xù)三天的測評(píng),個(gè)人認(rèn)為,作為初代模型,混元的總體質(zhì)量是非常高的,比很多視頻模型第一版的表現(xiàn)都要好。

跟混元的同學(xué)了解了下,這源于他們在這些方面的創(chuàng)新:

  • 使用新一代語言模型作為文本編碼器,具備更強(qiáng)的語義理解和畫面呈現(xiàn)能力;
  • 全程采用full attention(全注意力)機(jī)制,而不是時(shí)空模塊,使得每幀視頻的銜接更為流暢;
  • 使用自研圖像視頻混合VAE(3D 變分編碼器),提升模型在細(xì)節(jié)上的表現(xiàn)能力,比如人臉、手指、高速鏡頭等。

而且更為關(guān)鍵的是,鵝廠宣布對(duì)這個(gè)模型進(jìn)行開源??!

現(xiàn)在起,無論是個(gè)人還是企業(yè),所有開發(fā)者都可以在Hugging Face和Github上免費(fèi)使用這個(gè)模型了。


原文鏈接:一手實(shí)測,騰訊混元最新的視頻模型

本文轉(zhuǎn)載自互聯(lián)網(wǎng),如有侵權(quán),聯(lián)系郵箱:478266466@qq.com 刪除