行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌?

2022年10月13日19:39:24 科技 1246

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

圖片來源 https://www.midjourney.com/showcase/


當我們沉浸於抖音、快手,吃著零食葛優躺,這個世界正在悄然刷新著我們的認知。此前,通過 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用戶可以輸入簡單的文本內容,經過人工智慧創作出藝術插畫。近期,Meta和Google在此基礎上更進一步,相繼推出文本、語音生成視頻的黑科技。


#Meta

Meta的Make-A-Video不僅能夠生成圖片,還可以生成聲情並茂的視頻內容。根據用戶輸入的描繪某個場景的文本信息,生成一個相匹配的短視頻。

樣例網站:https://make-a-video.github.io/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


#Google

除了Meta,Google也在假期之末獻上兩名視頻生成競爭選——Imagen Video和Phenaki。根據Google CEO Sundar Pichai介紹,Imagen Video比Meta的Make-A-Video擁有更高的解析度,能生成1280*768,每秒24幀的視頻分段。

樣例網站:https://imagen.research.google/video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

Phenaki則可以根據200個單詞左右的文字描述,生成2分鐘以上的視頻,講述一個完整的小故事,堪比一個小小的導演。

樣例網站:https://phenaki.video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


背後到底依賴什麼技術?

Make-A-Video Meta

Make-A-Video的模型架構如下所示,該技術是在原來Text-to-Image的基礎上改進而來,主要動機是了解世界的樣子,以及描述與其配對的文本圖像數據,並從無監督視頻中學習現實世界錄製視頻時的鏡頭移動。

首先,作者解耦了完整的時間 U-Net 和注意力張量,並在空間和時間上對它們進行近似逼近。其次,作者設計了一個時空流水線來生成高解析度和幀率視頻,其中包含一個視頻解碼器、插值模型和兩個超解析度模型,可以實現包括 Text-to-Video的各種文本生成應用。

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://arxiv.org/pdf/2209.14792.pdf


Make-A-Video 的高級架構圖中顯示,給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個 64 × 64 解析度的幀,然後通過 ↑F 將其插值到更高的幀速率,並提高解析度到 SRt l 為 256 × 256,SRh 為 768 × 768,最後生成高時空解析度的視頻 y^。


Imagen Video Google

Imagen Video是基於最近大火的擴散模型,直接繼承圖像生成SOTA模型Imagen。

除了解析度高以外,還展示出三種特別能力。

首先它能理解並生成不同藝術風格的作品,物體的3D結構在旋轉展示中不會變形。Imagen Video是一系列模型的集合。語言模型部分是Google自家的T5-XXL,訓練好後凍結文本編碼器部分。其中,語言模型只負責編碼文本特徵,把文本到圖像轉換的工作交給了後面的視頻擴散模型。基礎模型在生成圖像的基礎上,以自回歸方式不斷預測下一幀,首先生成一個48*24每秒3幀的視頻。其從文本提示輸入開始到生成視頻的流程圖如下圖所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://imagen.research.google/video/paper.pdf


Phenaki Google

在Phenaki之前,AI模型可以一個具體提示生成一個超短視頻,但是無法生成2分鐘連貫的視頻。Phenaki實現了腦部故事情節,生成2分鐘以上視頻。

研究人員引入了一個新的因果模型來學習表示視頻:將視頻視作圖像的一個時間序列。該模型基於Transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。也就是通過空間Transformer將單個提示進行編碼,隨後再用因果Transformer將多個編碼好的提示串聯起來。其流程圖如下所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://openreview.net/pdf?id=vOEXS39nOF


文本生成視頻所帶來的衝擊

隨著文本生成視頻技術的快速發展,未來,各大短視頻平台的視頻或許不再是真人表演秀,而是合成視頻的秀場,這將給依靠短視頻平台的視頻剪輯和錄製的人員帶來經濟衝擊。

AI正在革新著各行業,在帶來挑戰的同時,也帶來了更多進步。Stability AI新任首席信息官Daniel Jeffries表示,AI最終會帶來更多的工作崗位。任何時候都是挑戰與機遇並存,把握時代脈搏就能創造更好的未來。

科技分類資訊推薦

嘉賓商學吳婷:谷歌傳 - 天天要聞

嘉賓商學吳婷:谷歌傳

你知道全球最賺錢的科技公司是誰嗎?不是英偉達,也不是蘋果、微軟,而是在AI大潮中看著有點落寞的谷歌。最近谷歌母公司Alphabet發布了2024年財報,營收3500億美元,凈利潤1001.2億美元,這也讓它成為史上第一個凈利潤超千億美元的科
華為 MateBook Pro 鴻蒙筆記本發布;小米發布會定檔 5 月 22 日;比亞迪全新兩三輪車電池曝光|Do早報 - 天天要聞

華為 MateBook Pro 鴻蒙筆記本發布;小米發布會定檔 5 月 22 日;比亞迪全新兩三輪車電池曝光|Do早報

Hello,大家早上好,又是元氣滿滿的一天,先來瀏覽新鮮的早報吧~【華為 MateBook Pro 鴻蒙筆記本發布】華為 MateBook Pro 筆記本在 5 月 19 日的 nova 14 系列及鴻蒙電腦新品發布會上正式登場,其同樣搭載 HarmonyOS 5。該產品售價 7999 元-10999 元,即日起啟動預售,6 月 6 日正式開售。【華為 no
微軟Build大會加速Windows向AI核心平台轉型 - 天天要聞

微軟Build大會加速Windows向AI核心平台轉型

【環球網財經綜合報道】美東時間5月19日周一,微軟年度開發者大會Build會議拉開帷幕。會上,微軟正以前所未有速度將Windows轉變為AI智能體核心平台,通過原生支持MCP協議及推出Windows AI Foundry,為AI智能體自動化未來鋪路。東方IC微軟構想未來全球用戶將藉助AI代理完成從編碼到操作系統等各類任務,期望打造「開放代理網...
15周年獻禮之作 小米15S Pro首發玄戒O1處理器 - 天天要聞

15周年獻禮之作 小米15S Pro首發玄戒O1處理器

小米官方宣布,全新旗艦小米15S Pro將首發搭載玄戒O1 3nm旗艦處理器,該機作為小米15周年獻禮之作,定不負期待。小米玄戒O1晶元是一款旗艦級別的SoC晶元,採用3nm工藝製造,是目前最先進的製造工藝,內部集成了190億晶體管。
5月20日,520,網路情人節,互聯網如何發明新的節日傳統? - 天天要聞

5月20日,520,網路情人節,互聯網如何發明新的節日傳統?

當數字從數學課本里跳出來,當鍵盤敲擊聲與玫瑰綻放聲產生共鳴,你有沒有想過,「520」 這個原本普通的數字組合,是如何在互聯網浪潮中,搖身一變成為全民追捧的網路情人節?這場始於鍵盤敲擊的浪漫實驗,正在重塑我們表達愛意的方式,也悄然改變著這個時
全球首場AI共創發布會,即將解鎖2025款eπ007新「智」生產力 - 天天要聞

全球首場AI共創發布會,即將解鎖2025款eπ007新「智」生產力

當全球產業競爭錨定人工智慧賽道,中國正以「AI+」戰略重塑經濟增長內核。早在2017年國務院便在《新一代人工智慧發展規劃》提出,人工智慧是引領未來的戰略性技術,是新一輪產業變革的核心驅動力。今年《政府工作報告》更是明確提及,要持續推進「人工智慧+」行動,支持大模型廣泛應用,大力發展智能網聯新能源汽車、人工智...
中國十大科技金融與十大數字金融事件(2024)發布儀式暨懇談會在普陀舉行 - 天天要聞

中國十大科技金融與十大數字金融事件(2024)發布儀式暨懇談會在普陀舉行

5月18日,中國十大科技金融與十大數字金融事件(2024)發布儀式暨懇談會在普陀舉行。上海國有資本投資有限公司副董事長鄭楊,安徽省國有金融資本投資管理有限公司黨委委員、副總經理朱子出席。活動旨在搭建政府、企業、學術機構及公眾的對話平台,推動行業生態健康發展,匯聚政府部門、行業協會、科技金融與數字金融企業、...