行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌?

2022年10月13日19:39:24 科技 1246

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

圖片來源 https://www.midjourney.com/showcase/


當我們沉浸於抖音、快手,吃着零食葛優躺,這個世界正在悄然刷新着我們的認知。此前,通過 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用戶可以輸入簡單的文本內容,經過人工智能創作出藝術插畫。近期,Meta和Google在此基礎上更進一步,相繼推出文本、語音生成視頻的黑科技。


#Meta

Meta的Make-A-Video不僅能夠生成圖片,還可以生成聲情並茂的視頻內容。根據用戶輸入的描繪某個場景的文本信息,生成一個相匹配的短視頻。

樣例網站:https://make-a-video.github.io/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


#Google

除了Meta,Google也在假期之末獻上兩名視頻生成競爭選——Imagen Video和Phenaki。根據Google CEO Sundar Pichai介紹,Imagen Video比Meta的Make-A-Video擁有更高的分辨率,能生成1280*768,每秒24幀的視頻分段。

樣例網站:https://imagen.research.google/video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

Phenaki則可以根據200個單詞左右的文字描述,生成2分鐘以上的視頻,講述一個完整的小故事,堪比一個小小的導演。

樣例網站:https://phenaki.video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


背後到底依賴什麼技術?

Make-A-Video Meta

Make-A-Video的模型架構如下所示,該技術是在原來Text-to-Image的基礎上改進而來,主要動機是了解世界的樣子,以及描述與其配對的文本圖像數據,並從無監督視頻中學習現實世界錄製視頻時的鏡頭移動。

首先,作者解耦了完整的時間 U-Net 和注意力張量,並在空間和時間上對它們進行近似逼近。其次,作者設計了一個時空流水線來生成高分辨率和幀率視頻,其中包含一個視頻解碼器、插值模型和兩個超分辨率模型,可以實現包括 Text-to-Video的各種文本生成應用。

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://arxiv.org/pdf/2209.14792.pdf


Make-A-Video 的高級架構圖中顯示,給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個 64 × 64 分辨率的幀,然後通過 ↑F 將其插值到更高的幀速率,並提高分辨率到 SRt l 為 256 × 256,SRh 為 768 × 768,最後生成高時空分辨率的視頻 y^。


Imagen Video Google

Imagen Video是基於最近大火的擴散模型,直接繼承圖像生成SOTA模型Imagen。

除了分辨率高以外,還展示出三種特別能力。

首先它能理解並生成不同藝術風格的作品,物體的3D結構在旋轉展示中不會變形。Imagen Video是一系列模型的集合。語言模型部分是Google自家的T5-XXL,訓練好後凍結文本編碼器部分。其中,語言模型只負責編碼文本特徵,把文本到圖像轉換的工作交給了後面的視頻擴散模型。基礎模型在生成圖像的基礎上,以自回歸方式不斷預測下一幀,首先生成一個48*24每秒3幀的視頻。其從文本提示輸入開始到生成視頻的流程圖如下圖所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://imagen.research.google/video/paper.pdf


Phenaki Google

在Phenaki之前,AI模型可以一個具體提示生成一個超短視頻,但是無法生成2分鐘連貫的視頻。Phenaki實現了腦部故事情節,生成2分鐘以上視頻。

研究人員引入了一個新的因果模型來學習表示視頻:將視頻視作圖像的一個時間序列。該模型基於Transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。也就是通過空間Transformer將單個提示進行編碼,隨後再用因果Transformer將多個編碼好的提示串聯起來。其流程圖如下所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://openreview.net/pdf?id=vOEXS39nOF


文本生成視頻所帶來的衝擊

隨着文本生成視頻技術的快速發展,未來,各大短視頻平台的視頻或許不再是真人表演秀,而是合成視頻的秀場,這將給依靠短視頻平台的視頻剪輯和錄製的人員帶來經濟衝擊。

AI正在革新着各行業,在帶來挑戰的同時,也帶來了更多進步。Stability AI新任首席信息官Daniel Jeffries表示,AI最終會帶來更多的工作崗位。任何時候都是挑戰與機遇並存,把握時代脈搏就能創造更好的未來。

科技分類資訊推薦

網購「3C認證」貼紙可助充電寶過安檢?平台緊急下架違規帖子 - 天天要聞

網購「3C認證」貼紙可助充電寶過安檢?平台緊急下架違規帖子

封面新聞記者 宋瀟 實習生 姚媛媛6月26日,民航局發佈緊急通知,自6月28日起禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。然而,6月27日,有網友爆料稱,二手交易平台上有商家公然提供3C認證刻字服務,毫不掩飾以「3C標誌認證,3C刻字,充電寶刻字」「充電寶打鐳射標,3C認證」等為題,宣...
超百萬充電寶召迴風波背後,無底線價格戰該剎車了 - 天天要聞

超百萬充電寶召迴風波背後,無底線價格戰該剎車了

超‌百萬個充電寶突陷安全旋渦,召回、管控、認證質疑接踵而至。‌多家企業密集發佈大批量召回通告,民航局緊急收緊航空攜帶新規,多個知名品牌更被發現3C認證存疑。一時間,消費者手中充電寶成了「燙手山芋」——「還能用嗎?」「如何查安全?」「召回咋處
離開中國的鈴木,現在還在海外推出新車? - 天天要聞

離開中國的鈴木,現在還在海外推出新車?

鈴木原廠在 2024 年 11 月初時正式發佈品牌首款純電產品 e Vitara,亦為純電概念車 eVX 的量產版,動力規格上擁有前驅與四驅設定、電池容量有着 49kWh 和 61kWh 規格,新車將會是印度制的身份來銷售,並將在夏季於歐洲、印度和日本等市場上
攜充電寶乘機新規發佈,深圳機場可提供7天暫存 - 天天要聞

攜充電寶乘機新規發佈,深圳機場可提供7天暫存

6月28日起,深圳機場開始執行民航局緊急通知的要求,禁止旅客攜帶沒有3C標識、3C標識不清晰、被召回型號或批次的充電寶乘坐境內航班。新規施行首日,深圳機場多措並舉,在嚴格落實局方要求的同時,儘可能為旅客現場處置不能攜帶的充電寶提供便利,同時增派人員,確保現場運行平穩有序。在深圳機場航站樓內,從出發層入口到...
讓機械人觸覺達人手800倍,上海交大教授正加速機械人「就業上崗」速度 - 天天要聞

讓機械人觸覺達人手800倍,上海交大教授正加速機械人「就業上崗」速度

「機械人的功能再炫酷,最終還是得能『用』。」上海交通大學船舶海洋與建築工程學院長聘副教授馬道林,一直致力於解決具身智能發展的難點——觸覺,這正是機械人能「用」的基礎。馬道林關於這一研究的論文在全球頂級學術會議——國際機械人與自動化大會(ICRA)上獲最佳論文獎,這是4000多篇參會論文中的唯一。而他去年5月...
特斯拉:已在中國大陸地區開放超2100座超級充電站 - 天天要聞

特斯拉:已在中國大陸地區開放超2100座超級充電站

【環球網科技綜合報道】6月29日消息,特斯拉日前宣布,其全球超級充電樁已突破7萬根。截至目前,中國大陸地區已建設開放超2100座特斯拉超級充電站,逾11600根特斯拉超級充電樁,配合超2500根目的地充電樁。特斯拉充電網絡的布局也已經100%覆蓋了中國大陸的所有省會城市及直轄市。特斯拉此前曾宣布,中國市場首批V4超級充電...