行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌?

2022年10月13日19:39:24 科技 1246

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

圖片來源 https://www.midjourney.com/showcase/


當我們沉浸於抖音、快手,吃著零食葛優躺,這個世界正在悄然刷新著我們的認知。此前,通過 DALL-E、MidJourney 和 CrAIyon 等 AI 工具,普通用戶可以輸入簡單的文本內容,經過人工智慧創作出藝術插畫。近期,Meta和Google在此基礎上更進一步,相繼推出文本、語音生成視頻的黑科技。


#Meta

Meta的Make-A-Video不僅能夠生成圖片,還可以生成聲情並茂的視頻內容。根據用戶輸入的描繪某個場景的文本信息,生成一個相匹配的短視頻。

樣例網站:https://make-a-video.github.io/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


#Google

除了Meta,Google也在假期之末獻上兩名視頻生成競爭選——Imagen Video和Phenaki。根據Google CEO Sundar Pichai介紹,Imagen Video比Meta的Make-A-Video擁有更高的解析度,能生成1280*768,每秒24幀的視頻分段。

樣例網站:https://imagen.research.google/video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

Phenaki則可以根據200個單詞左右的文字描述,生成2分鐘以上的視頻,講述一個完整的小故事,堪比一個小小的導演。

樣例網站:https://phenaki.video/

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞


背後到底依賴什麼技術?

Make-A-Video Meta

Make-A-Video的模型架構如下所示,該技術是在原來Text-to-Image的基礎上改進而來,主要動機是了解世界的樣子,以及描述與其配對的文本圖像數據,並從無監督視頻中學習現實世界錄製視頻時的鏡頭移動。

首先,作者解耦了完整的時間 U-Net 和注意力張量,並在空間和時間上對它們進行近似逼近。其次,作者設計了一個時空流水線來生成高解析度和幀率視頻,其中包含一個視頻解碼器、插值模型和兩個超解析度模型,可以實現包括 Text-to-Video的各種文本生成應用。

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://arxiv.org/pdf/2209.14792.pdf


Make-A-Video 的高級架構圖中顯示,給定由先驗 P 翻譯成圖像嵌入的輸入文本 x 和所需的幀速率 f ps ,解碼器 Dt 生成 16 個 64 × 64 解析度的幀,然後通過 ↑F 將其插值到更高的幀速率,並提高解析度到 SRt l 為 256 × 256,SRh 為 768 × 768,最後生成高時空解析度的視頻 y^。


Imagen Video Google

Imagen Video是基於最近大火的擴散模型,直接繼承圖像生成SOTA模型Imagen。

除了解析度高以外,還展示出三種特別能力。

首先它能理解並生成不同藝術風格的作品,物體的3D結構在旋轉展示中不會變形。Imagen Video是一系列模型的集合。語言模型部分是Google自家的T5-XXL,訓練好後凍結文本編碼器部分。其中,語言模型只負責編碼文本特徵,把文本到圖像轉換的工作交給了後面的視頻擴散模型。基礎模型在生成圖像的基礎上,以自回歸方式不斷預測下一幀,首先生成一個48*24每秒3幀的視頻。其從文本提示輸入開始到生成視頻的流程圖如下圖所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://imagen.research.google/video/paper.pdf


Phenaki Google

在Phenaki之前,AI模型可以一個具體提示生成一個超短視頻,但是無法生成2分鐘連貫的視頻。Phenaki實現了腦部故事情節,生成2分鐘以上視頻。

研究人員引入了一個新的因果模型來學習表示視頻:將視頻視作圖像的一個時間序列。該模型基於Transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時間的因果順序來進行的。也就是通過空間Transformer將單個提示進行編碼,隨後再用因果Transformer將多個編碼好的提示串聯起來。其流程圖如下所示:

行業洞察 | 文本生成視頻,Meta、Google哪家更勝一籌? - 天天要聞

來自源論文:https://openreview.net/pdf?id=vOEXS39nOF


文本生成視頻所帶來的衝擊

隨著文本生成視頻技術的快速發展,未來,各大短視頻平台的視頻或許不再是真人表演秀,而是合成視頻的秀場,這將給依靠短視頻平台的視頻剪輯和錄製的人員帶來經濟衝擊。

AI正在革新著各行業,在帶來挑戰的同時,也帶來了更多進步。Stability AI新任首席信息官Daniel Jeffries表示,AI最終會帶來更多的工作崗位。任何時候都是挑戰與機遇並存,把握時代脈搏就能創造更好的未來。

科技分類資訊推薦

龍旗科技向港交所遞交 H 股上市申請 - 天天要聞

龍旗科技向港交所遞交 H 股上市申請

DoNews6月29日消息,龍旗科技 29 日發布公告,宣布公司已於 27 日向香港聯合交易所有限公司遞交了發行 H 股股票並在香港聯交所主板掛牌上市的申請,並於同日在香港聯交所網站刊登了本次發行上市的申請資料。花旗、海通國際、國泰君安國際為龍旗科技聯席保薦人。招股書顯示,龍旗科技是全球領先的智能產品和服務提供商,目前...
售價25.49萬元!這款豪華插混SUV硬剛小米YU7 - 天天要聞

售價25.49萬元!這款豪華插混SUV硬剛小米YU7

日前,沃爾沃全新XC60上市,新車有燃油版和T8插電混動兩種動力版本,共8款車型,廠商建議零售價區間為39.69萬-60.39萬元。不過,此次沃爾沃為全新XC60準備了限時參考尊享價,價格區間為25.49萬-43.49萬元,起價直接降低了14萬元左右。作為改款車型,新車主要針對設計,智能和動力方面進行了升級,下面我們就來詳細看看新車...
信用卡被異地盜刷?你手機的NFC功能被騙子盯上了 - 天天要聞

信用卡被異地盜刷?你手機的NFC功能被騙子盯上了

近日,北京市第三中級人民法院對一起盜刷信用卡案進行了二審宣判。在這起案件中,多名被害人,信用卡沒有丟失也沒有被複制,卡上的錢卻在48小時內,異地被接連盜刷,共計一百多萬元。家住北京朝陽的張先生,在2023年4月的一天,突然收到銀行簡訊通知,他的信用卡在海南產生多筆大額消費。這些扣費通知顯示,從下午3點56分到...
守護家的每一程!瑞虎8冠軍家族上新,10.69萬起限時優惠 - 天天要聞

守護家的每一程!瑞虎8冠軍家族上新,10.69萬起限時優惠

6月28日,奇瑞汽車在青島智能工廠成功舉辦"守護家的每一程"瑞虎8冠軍家族新品發布會。活動現場正式推出兩款戰略車型:定位於家庭出行的瑞虎8L長虹版,以及面向年輕消費群體的瑞虎8 PLUS乘風版,分別提供12.77萬元和10.69萬元的限時優惠價格。為促進市場銷
一文看懂 角接觸球軸承的安裝方式及特點 - 天天要聞

一文看懂 角接觸球軸承的安裝方式及特點

角接觸球軸承的安裝比深溝球軸承複雜,多為成對安裝,並需採用預載入荷。安裝得好,可使主機的工作精度、軸承壽命大大提高;否則,不僅精度達不到要求,壽命也會受到影響。 下面,宇耐爾小編就為大家詳細介紹一下,角接觸球軸承安裝方法。1.
工裝夾具定位原則:長邊定旋轉,短邊定移動.3點成面 - 天天要聞

工裝夾具定位原則:長邊定旋轉,短邊定移動.3點成面

在機械加工領域,工裝夾具是保證工件在加工過程中處於正確位置的重要工具。其定位原理多種多樣,但「長邊定旋轉,短邊定移動」這一原則在實際應用中具有顯著的指導意義。這一原則主要基於六點定位原理和工件定位的基本原理,旨在通過合理布局的定位元件,實現
小米YU7剎車片起火!公司回應 - 天天要聞

小米YU7剎車片起火!公司回應

日前,有媒體發布了在賽道測試小米YU7時剎車片起火的視頻。小米汽車28日回應稱,視頻中,小米YU7 Max在天津V1賽車場進行1個暖胎圈+1個飛行圈後,在未進行散熱圈的極端情況下,直接駐車,高溫導致制動片有機物材料發生起火,但制動系統整體未出現任何制動失效等問題,功能健全,使用正常。全文如下:問:看到有媒體在賽道測...
灼言丨多向賦能,讓科技創新潮湧齊魯大地 - 天天要聞

灼言丨多向賦能,讓科技創新潮湧齊魯大地

6月27日,山東省科技大會在濟南召開,這場事關科技強省建設全局的盛會,以高瞻遠矚的系統部署,為山東科技創新錨定方向、擘畫藍圖,充分彰顯出向「科技強省」目標全力衝刺的堅定決心。事實上,山東在科技創新賽道上早已跑出亮眼成績——2024年企業研發