始智ai wisemodel.cn開源社區
隨著年初openai 的sora demo的發布,視頻生成或視頻編輯領域呈現出井噴式發展的趨勢。這一新興技術浪潮不僅吸引了眾多研究人員的目光,也使得相關應用如雨後春筍般湧現,為整個行業帶來了前所未有的創新活力。
本文將從幾個方面具體分享關於視頻編輯方法stablev2v研究的心路歷程,包括視頻編輯基本定義、視頻編輯現有方法的解決方案及局限性,以及stablev2v的思路和實現細節等。目前stablev2v模型已上線始智ai-wisemodel開源社區,歡迎大家前去體驗。
模型和代碼地址:
01
視頻編輯的基本定義
視頻編輯(video editing)這項任務旨在根據用戶輸入的額外條件,對原視頻中的內容(例如:前景、背景等等)進行編輯。在diffusion model主導的大背景環境下,現有方法的setting大多都是基於文本描述進行的,比較有名的工作有tokenflow、stablevideo、avid等等。
text-based editing效果的演示
其實從上述兩個例子,大家不難發現video editing這個任務的難點——(1)生成視頻幀之間的連續一致性、(2)編輯內容與user prompts之間的一致性問題。第一點可以說是視頻模態相關任務的通病——即我們常說的temporal consistency問題。
也就是說,我們在對原視頻進行編輯的同時,也要保證生成視頻幀與幀之間是連貫的;第二點則是由於人機交互帶來的問題,我們知道,用戶在交互過程中給定的prompt(文字或圖片),往往會存在跟生成內容之間不一致的問題。
02
現有方法的解決方案及局限性
03
想法和思路
在設計stablev2v的時候,我們嘗試跳出現有方法的範式局限,專註于思考一個問題——我們究竟能不能拿到跟user prompts對齊的motion patterns?
stablev2v的方法流程圖。圖中的綠框代表視頻的第一幀,藍框代表從第k次迭代模擬到第k+1次模擬的過程。
04
方法與細節
stablev2v主要包括三個核心組件—prompted first-frame editor(pfe)、iterative shape aligner(isa)、conditional image-to-video generator(cig)。
isa的motion simulation過程
motion simulation。具體來說,isa需要藉助「原視頻幀」以及「第一編輯幀」對應的segmentation masks來完成模擬過程,這裡我們僅介紹從第1到第2個模擬的光流模擬過程(上圖中的紅色框部分),後續的過程以此類推,展示如下:
isa各階段模擬的可視化效果
05
實驗結果對比
davis-edit樣例的可視化
我們在文章中對stablev2v以及七個現有方法進行了對比。客觀指標上,我們考慮了dover、fvd、we、clip-temporal、clip score、推理時間,從視頻質量、幀間一致性、圖文對齊、推理效率等多個方面對現有方法進行評測。
同時,我們還考慮了human evaluation。關於實驗結果的對比及分析,歡迎大家參考我們的原文。下面是我們主實驗的結果:
stablev2v與其他方法在davis-edit上的對比結果
stablev2v在text-based editing(左)和image-based editing(右)上的應用
stablev2v的更多應用
作者丨alonzo
編輯丨成蘊年