PixelDance&Seaweed:豆包視頻生成模型

PixelDance視頻生成模型
PixelDance是由字節(jié)跳動研發(fā)的一種視頻生成模型,于2024年發(fā)布。
核心技術(shù)
- 基于潛在擴散模型:PixelDance的核心技術(shù)是將傳統(tǒng)的2D UNet模型擴展為3D變體,在時序生成方面有了更大的靈活性。通過設(shè)置時間注意力層,模型能夠在生成每一幀視頻時,保持不同時刻之間的聯(lián)系,并且這一切依賴于來自各類源的視頻數(shù)據(jù),這不僅提高了生成視頻的多樣性,也為其生成的高一致性提供了保障。
- 指令注入機制:采用文本指令伴隨首尾幀圖像指令進行視頻生成的指令注入機制。在整個訓(xùn)練過程中,模型被設(shè)計為優(yōu)先遵循首幀指令,但在推理的最后階段,尾幀指令則作為生成視頻的引導(dǎo),這種方式讓視頻生成不僅精準,還富有故事性。
模型特點
- 性能提升顯著:在MSR - VTT和UCF - 101公開數(shù)據(jù)集上,PixelDance取得了非常顯著的性能提升。利用圖像先驗知識的方法,能夠生成一些高質(zhì)量的視頻內(nèi)容,在生成長視頻方面的性能超越了現(xiàn)有的視頻生成技術(shù),尤其在保持時間一致性和視頻質(zhì)量方面取得了顯著的進展。
- 高動作多樣性:其具有顯著更大的特征空間和更強的動作多樣性,能夠處理包含人物復(fù)雜連續(xù)動作、多鏡頭組合和運鏡控制等任務(wù),表現(xiàn)出色地應(yīng)對復(fù)雜動作與炫酷特效.
- 多種模式與輸入:有基礎(chǔ)模式和高級魔法模式兩種。基礎(chǔ)模式下用戶只需要提供一張指導(dǎo)圖片和一段文本描述,就能生成有高度一致性且有豐富動態(tài)性的視頻;高級魔法模式需要用戶提供兩張指導(dǎo)圖片和一段文本描述,可以更好地生成更有難度的視頻內(nèi)容。并且它能夠處理真實風(fēng)格、動畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格等多種風(fēng)格的輸入圖片,人物動作、臉部表情、相機視角控制、特效動作等方面也能很好地完成.
應(yīng)用場景
在諸多應(yīng)用場景表現(xiàn)良好,比如可根據(jù)用戶預(yù)設(shè)的故事,制作出每個場景和對應(yīng)的動作,無論是真實場景還是虛幻場景,都能生成細節(jié)豐富、動作豐富的視頻,適用于影視創(chuàng)作、廣告?zhèn)髅健⒍桃曨l、直播、電商等眾多場景,對劇情創(chuàng)作也非常友好。
Seaweed視頻生成模型
Seaweed是字節(jié)跳動自研的視頻生成模型,同樣于2024年發(fā)布,它面向平臺用戶的開放使用標志著字節(jié)跳動在AI視頻領(lǐng)域的重要探索成果。
核心技術(shù)與架構(gòu)
- 基于DiT架構(gòu):基于DiT(Diffusion Transformer,擴散模型的一種)架構(gòu),使模型能實現(xiàn)大幅度運動畫面流暢自然,這一架構(gòu)為模型帶來了特殊的優(yōu)勢,讓視頻在生成時有著更好的畫面流暢性與視覺效果的基礎(chǔ).
模型特點
- 生成效率優(yōu)勢:Seaweed的標準版在生成效率方面有較為明顯的優(yōu)勢。測試顯示,該模型僅需60s就能生成時長5s的高質(zhì)量AI視頻,大幅領(lǐng)先于國內(nèi)業(yè)界3 - 5分鐘的前沿水平.
- 畫面美感與真實感并存:經(jīng)過剪映、即夢AI等業(yè)務(wù)場景的打磨和迭代,具備專業(yè)級光影布局及色彩調(diào)和,使得畫面視覺極具美感和真實感.
應(yīng)用場景
可應(yīng)用于廣泛的場景如游戲視頻制作、短視頻內(nèi)容創(chuàng)新、動畫設(shè)計等場景。無論是對于個人創(chuàng)作者還是專業(yè)團隊,在生成具有視覺質(zhì)量的短片方面能夠有效降低創(chuàng)作門檻,吸引更多觀眾提升內(nèi)容的可觀看性和分享度。
PixelDance與Seaweed的對比

性能與效果維度
- 動作完成能力:在人物復(fù)雜連續(xù)動作方面,PixelDance表現(xiàn)突出,能在10s內(nèi)完成3個連續(xù)動作,而Seaweed受限于5s的生成時長不能很精準的表現(xiàn)出如【摘下墨鏡】后【向前走】這樣的連續(xù)動作,不過Seaweed人物動作的自然度和眼睛的補足做的還不錯。
- 多鏡頭組合能力:PixelDance在多鏡頭組合方面是頂級的,能夠在單次生成的視頻里很好地呈現(xiàn)不同角度的鏡頭切換;Seaweed整體動作流暢度和幅度是足夠的,但在復(fù)刻PixelDance案例時,多次嘗試未能做到鏡頭切換的效果.
- 運鏡控制能力:PixelDance能夠通過prompt精準的控制鏡頭運動的軌跡,如實現(xiàn)【360度環(huán)繞】從【側(cè)臉】到【正臉】,最終落點在人物的面部特寫;Seaweed雖然實現(xiàn)了【360度】環(huán)繞似的運動,但是沒有鏡頭遠近的變化,也沒有落點在人物的面部特寫上.
效率維度
- 生成速度不同:Seaweed生成效率較高,60秒可生成5秒的視頻;而PixelDance在標準模式下時長可達10秒。這表明二者在不同時長需求場景下各有優(yōu)勢,如果需要快速生成較短時長的視頻,Seaweed可能更合適,如果需要相對較長且更復(fù)雜的視頻內(nèi)容,PixelDance或許更能勝任。
輸入與功能側(cè)重
- 指令輸入方式不同:PixelDance使用文本指令伴隨首尾幀圖像指令注入機制,而Seaweed雖未見此類特別強調(diào)的指令輸入方式,但從其能力看也有自己在圖片輸入場景下的優(yōu)勢,如在圖生視頻場景體現(xiàn)出較好的首幀一致性,可以保持與用戶輸入圖的一致性、色彩等細節(jié)還原。
- 功能獨特性不同:PixelDance的功能重點更偏向于對復(fù)雜動作、鏡頭組合和運鏡控制等;Seaweed模型則在畫面的光影布局、色彩調(diào)和、畫面的穩(wěn)定與流暢方面有自己的特色。
PixelDance和Seaweed視頻生成模型的應(yīng)用案例
PixelDance的應(yīng)用案例
- 影視創(chuàng)作方面:在影視中,可以根據(jù)預(yù)設(shè)的情節(jié)腳本,當(dāng)輸入包含人物在不同情緒狀態(tài)下的文本描述以及對應(yīng)的首尾幀圖像,比如特寫一個女人的面部有些生氣,戴上了一副墨鏡,這時一個男人從畫面右側(cè)走進來抱住了她,PixelDance能夠按照指令的時序去完成連續(xù)的動作,多個主體之間能夠順暢交互并且人物表情能準確傳達指令情緒,完成影視劇情片段的創(chuàng)作。
- 廣告?zhèn)髅椒矫?/strong>:例如在為一款汽車制作廣告時,可以提供一張汽車在起始場景(如在城市繁華街道起點)的圖片為起始幀,結(jié)合一段展現(xiàn)汽車性能、外觀吸引點的文字描述,如“汽車飛馳在街道上,炫目的外觀吸引路人目光,瞬間加速超車”,并可以選擇再提供一張汽車到達目的地(如在山頂眺望城市)的圖片為尾幀,PixelDance則能夠生成一個汽車從街道起步到開上山頭的視頻,視頻中可以包含復(fù)雜的運鏡,如跟隨汽車的360度環(huán)繞,鏡頭的拉近推遠,多主體像行人與汽車的互動等,很好地展示汽車的特點,用于廣告推廣。
- 短視頻創(chuàng)作方面:對于一些搞笑短視頻創(chuàng)作,創(chuàng)作者可以給出如一個人搞笑表情的起始幀圖片,配合一段描述這個人接下來發(fā)生一系列搞笑動作(如滑倒、爬起后又撞到桿子等)的文字內(nèi)容,利用PixelDance生成具有搞笑劇情的短視頻內(nèi)容。
Seaweed的應(yīng)用案例
- 游戲視頻制作方面:在制作游戲宣傳視頻時,如果有一幅游戲中主角站在神秘城堡前的初始畫面,通過輸入關(guān)于主角進入城堡探索(如探索神秘寶藏、與怪物戰(zhàn)斗等)相關(guān)的文本描述,Seaweed能夠生成一段5秒左右游戲畫面流暢自然,視覺效果真實且具有專業(yè)光影布局的精彩片段,用于游戲的宣傳推廣。
- 短視頻內(nèi)容創(chuàng)新方面:例如在美食短視頻制作中,輸入一張精美的美食擺在桌上的圖片,加上一段介紹美食口感、烹飪過程等的文字描述,Seaweed能在較短時間內(nèi)生成具有較高視覺美感的短視頻,美食在畫面中的呈現(xiàn)因良好的色彩調(diào)和顯得更加誘人。
- 動畫設(shè)計方面:動畫設(shè)計初期概念驗證階段,輸入一些簡單的角色起始畫面,配合關(guān)于角色動作、場景轉(zhuǎn)換等的文字構(gòu)思,Seaweed較快生成的動畫視頻可幫助設(shè)計師直觀地感受設(shè)計方案的初步視覺效果以便快速調(diào)整創(chuàng)意方向。
PixelDance與Seaweed視頻生成模型的優(yōu)缺點分析
PixelDance的優(yōu)缺點
優(yōu)點
- 動作處理與鏡頭控制:在人物動作處理的能力上比較強,像復(fù)雜連續(xù)動作、多鏡頭組合、運鏡控制等方面都是它的亮點。因為其較大的特征空間和動作多樣性,可以高質(zhì)量的完成復(fù)雜場景的構(gòu)建以及多主體間復(fù)雜交互動作的呈現(xiàn),這對于需要在視頻中體現(xiàn)出復(fù)雜劇情、多角色互動或是有特殊運鏡要求的創(chuàng)作場景非常有優(yōu)勢,如電影創(chuàng)作中的武打場面、追逐場景等都能得到較好的體現(xiàn).
- 多種風(fēng)格的適應(yīng)與特效:能夠處理多種風(fēng)格(真實風(fēng)格、動畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格等)的輸入內(nèi)容并且在特效處理方面(人物動作、臉部表情、相機視角控制、特效動作等)有較好的表現(xiàn),這使得它可以靈活應(yīng)用于各種風(fēng)格和創(chuàng)意需求的視頻制作。無論是制作一部奇幻風(fēng)格的微電影,還是簡單的酷炫特效短視頻都能滿足需求.
- 獨特的指令機制:它的文本指令伴隨首尾幀圖像指令的機制,既保證了視頻生成的準確性,又能讓視頻富有故事性。通過優(yōu)先遵循首幀指令進而參考尾幀指令,使得視頻生成過程中不同時刻畫面之間的聯(lián)系有更好的邏輯性,在長視頻制作時能夠保持較好的時間一致性.
缺點
- 相對復(fù)雜的制作難度:由于其功能聚焦在多主體交互、復(fù)雜動作和運鏡控制等高級特性上,對于普通用戶或者初學(xué)者來說,使用起來可能會有一定的難度,需要更多的時間去理解和掌握如何有效地給出指令來實現(xiàn)自己想要的視頻效果。
- 可能較長的生成時間:盡管具體的生成時間沒有準確的數(shù)據(jù)表明長于Seaweed ,但是從它生成視頻可以達到10秒并且包含更多復(fù)雜的動作和鏡頭效果來看,在硬件資源有限的情況下可能相比Seaweed會花費更多時間在生成視頻上。而對于一些需要快速出片的場景可能會受到限制。
Seaweed的優(yōu)缺點
優(yōu)點
- 生成效率高:短短60秒就能生成5秒時長的高質(zhì)量視頻,這在效率方面是其很大的優(yōu)勢。尤其是對于一些對視頻生成速度要求很高的短視頻創(chuàng)作場景,如新聞資訊類短視頻、即時熱點的短視頻反應(yīng)等方面,可以快速地生成所需的視頻內(nèi)容投入使用.
- 畫面視覺效果好:無論是其在光影布局、色彩調(diào)和方面的專業(yè)級處理能力,還是得益于DiT架構(gòu)實現(xiàn)的大幅度運動畫面流暢自然的特性,都為畫面視覺效果帶來了很高的分數(shù)。像商業(yè)廣告、藝術(shù)短片等對于畫面視覺美感要求高的場景下可以有很好的應(yīng)用表現(xiàn).
- 上手難度低:模型相對來說可能更偏向于基礎(chǔ)視覺層面的高質(zhì)量輸出,沒有PixelDance在動作、鏡頭組合等方面那么復(fù)雜的功能,可能對于普通用戶來說更容易上手,對于不擅長處理復(fù)雜指令的創(chuàng)作者而言是比較友好的選擇。
缺點
- 動作與鏡頭控制局限性:在人物復(fù)雜連續(xù)動作、多鏡頭組合以及運鏡控制等方面的能力相對較弱。在需要體現(xiàn)多主體復(fù)雜交互動作、多樣的鏡頭切換及精準運鏡控制的場景下,如一些動作大片的片段生成或者情節(jié)復(fù)雜的故事性短視頻創(chuàng)作時可能無法達到很高的要求.
- 功能相對單一性:主要集中在畫面視覺效果的提升方面,模型的功能更多偏向于保證畫面本身看起來更好看、更流暢自然,相比PixelDance在處理多種風(fēng)格輸入、多種特效動作以及故事邏輯生成等方面缺乏更多的特性。
? 版權(quán)聲明
本站文章版權(quán)歸奇想AI導(dǎo)航網(wǎng)所有,未經(jīng)允許禁止任何形式的轉(zhuǎn)載。