行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌?

2022年10月13日19:39:24 科技 1246

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

圖片來源 https://www.midjourney.com/showcase/


當我們沉浸於抖音、快手,吃著零食葛優躺,這個世界正在悄然刷新著我們的認知。此前,通過 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用戶可以輸入簡單的文本內容,經過人工智慧創作出藝術插畫。近期,Meta和Google在此基礎上更進一步,相繼推出文本、語音生成視頻的黑科技。


#Meta

Meta的Make-A-Video不僅能夠生成圖片,還可以生成聲情並茂的視頻內容。根據用戶輸入的描繪某個場景的文本信息,生成一個相匹配的短視頻。

樣例網站:https://make-a-video.github.io/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


#Google

除了Meta,Google也在假期之末獻上兩名視頻生成競爭選——Imagen Video和Phenaki。根據Google CEO Sundar Pichai介紹,Imagen Video比Meta的Make-A-Video擁有更高的解析度,能生成1280*768,每秒24幀的視頻分段。

樣例網站:https://imagen.research.google/video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

Phenaki則可以根據200個單詞左右的文字描述,生成2分鐘以上的視頻,講述一個完整的小故事,堪比一個小小的導演。

樣例網站:https://phenaki.video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


背後到底依賴什麼技術?

Make-A-Video Meta

Make-A-Video的模型架構如下所示,該技術是在原來Text-to-Image的基礎上改進而來,主要動機是了解世界的樣子,以及描述與其配對的文本圖像數據,並從無監督視頻中學習現實世界錄製視頻時的鏡頭移動。

首先,作者解耦了完整的時間 U-Net 和注意力張量,並在空間和時間上對它們進行近似逼近。其次,作者設計了一個時空流水線來生成高解析度和幀率視頻,其中包含一個視頻解碼器、插值模型和兩個超解析度模型,可以實現包括 Text-to-Video的各種文本生成應用。

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://arxiv.org/pdf/2209.14792.pdf


Make-A-Video 的高級架構圖中顯示,給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個 64 × 64 解析度的幀,然後通過 ↑F 將其插值到更高的幀速率,並提高解析度到 SRt l 為 256 × 256,SRh 為 768 × 768,最後生成高時空解析度的視頻 y^。


Imagen Video Google

Imagen Video是基於最近大火的擴散模型,直接繼承圖像生成SOTA模型Imagen。

除了解析度高以外,還展示出三種特別能力。

首先它能理解並生成不同藝術風格的作品,物體的3D結構在旋轉展示中不會變形。Imagen Video是一系列模型的集合。語言模型部分是Google自家的T5-XXL,訓練好後凍結文本編碼器部分。其中,語言模型只負責編碼文本特徵,把文本到圖像轉換的工作交給了後面的視頻擴散模型。基礎模型在生成圖像的基礎上,以自回歸方式不斷預測下一幀,首先生成一個48*24每秒3幀的視頻。其從文本提示輸入開始到生成視頻的流程圖如下圖所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://imagen.research.google/video/paper.pdf


Phenaki Google

在Phenaki之前,AI模型可以一個具體提示生成一個超短視頻,但是無法生成2分鐘連貫的視頻。Phenaki實現了腦部故事情節,生成2分鐘以上視頻。

研究人員引入了一個新的因果模型來學習表示視頻:將視頻視作圖像的一個時間序列。該模型基於Transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。也就是通過空間Transformer將單個提示進行編碼,隨後再用因果Transformer將多個編碼好的提示串聯起來。其流程圖如下所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://openreview.net/pdf?id=vOEXS39nOF


文本生成視頻所帶來的衝擊

隨著文本生成視頻技術的快速發展,未來,各大短視頻平台的視頻或許不再是真人表演秀,而是合成視頻的秀場,這將給依靠短視頻平台的視頻剪輯和錄製的人員帶來經濟衝擊。

AI正在革新著各行業,在帶來挑戰的同時,也帶來了更多進步。Stability AI新任首席信息官Daniel Jeffries表示,AI最終會帶來更多的工作崗位。任何時候都是挑戰與機遇並存,把握時代脈搏就能創造更好的未來。

科技分類資訊推薦

MiniMax發布新一代語音大模型 - 天天要聞

MiniMax發布新一代語音大模型

近日,AI獨角獸MiniMax稀宇極智發布新一代語音大模型Speech-02,宣布該模型在國際最權威的兩項語音評測榜單Artificial Analysis(全球知名AI基準測試機構)和Hugging Face TTS Arena (抱抱臉
虛假廣告、假冒商家肆虐 美元宇宙平台公司監管遭質疑 - 天天要聞

虛假廣告、假冒商家肆虐 美元宇宙平台公司監管遭質疑

美國《華爾街日報》近日報道稱,美國元宇宙平台公司旗下的「臉書」和「照片牆」 已成為全球詐騙團伙的主要作案平台,虛假廣告、假冒商家肆虐,不僅導致用戶財產損失慘重,更暴露了美國元宇宙平台公司在內容監管上的系統性漏洞。埃德加·古茲曼是美國亞特蘭大郊區一家名為「半價批發」的公司老闆,主要銷售家裝和園藝設備。...
小屏黨的春天!小屏旗艦越來越多 這幾款尤其出眾 - 天天要聞

小屏黨的春天!小屏旗艦越來越多 這幾款尤其出眾

【CNMO科技導購】近年來,越來越多手機廠商開始推出小屏旗艦機型。這一趨勢表明,小屏旗艦正在重新受到市場重視。其實早在智能手機剛興起時,小屏手機也曾是主流。但隨著用戶對觀影、遊戲、多任務處理的需求增加,大屏手機逐漸成為主流。然而,大屏雖好,
富士康向印度投資15億美元 加速提升iPhone及晶元產能 - 天天要聞

富士康向印度投資15億美元 加速提升iPhone及晶元產能

【CNMO科技消息】據彭博社報道,富士康近日通過其新加坡子公司向印度業務注資15億美元,此舉被廣泛認為是其擴大iPhone在印生產的重要一步。隨著蘋果正將其供應鏈從中國轉移,印度正在逐漸成為其新的製造重鎮,而這一輪大規模投資也顯示出富士康對
北斗系統新進展!已全面進入 - 天天要聞

北斗系統新進展!已全面進入

作為聯合國認可的全球衛星導航系統核心供應商,北斗系統全面進入民航、海事、移動通信等11個國際組織的標準體系,並持續擴大國際「朋友圈」。目前,奈及利亞、突尼西亞、塞內加爾等30多個非洲國家已建設北斗CORS站。來源:央視新聞客戶端相關閱讀北斗衛星導航原理及應用ISBN 978-7-03-080432-7作者:叢佃偉,呂志偉,劉婧北京:...
金力:聚焦「四個最前沿」深化科技體制改革,推動科技創新和產業創新深度融合 - 天天要聞

金力:聚焦「四個最前沿」深化科技體制改革,推動科技創新和產業創新深度融合

習近平總書記4月29日在上海考察時強調,上海承擔著建設國際科技創新中心的歷史使命,要搶抓機遇,以服務國家戰略為牽引,不斷增強科技創新策源功能和高端產業引領功能,加快建成具有全球影響力的科技創新高地。「加快」「建成」和「高地」三個詞體現了總書記對於上海科技創新發展的高度重視和殷切期盼。復旦大學地處上海,...
微軟:AI熱潮下 人性特質比以往任何時期都重要 - 天天要聞

微軟:AI熱潮下 人性特質比以往任何時期都重要

財聯社5月20日訊(編輯 史正丞)當地時間周一,微軟為期四天的Build 2025開發者大會正式拉開帷幕。數千名面臨「AI搶飯碗」衝擊的程序員齊聚一堂,聆聽「始作俑者」微軟的最新構想。在微軟CEO納德拉的揭幕演講中,最核心的更新是把AI編程助手GitHub Copilot升級成了各位程序員的「同僚」。據微軟透露,現在AI助手已經能代表...