AI一鍵生成「電影感」視頻,人人都能當「導演」

2024年12月04日23:03:03 科技 1215

騰訊旗下混元大模型,正在「招聘」導演。12月3日,在混元大模型媒體溝通會上,騰訊公布了旗下模型最新進展:正式上線視頻生成能力。現場生成視頻顯示,無論是在水裡衝浪,還是在閣樓里跳舞,只要你的想像力「夠用」,輸入精確提示詞後都能一鍵生成。另外在人物展示方面,混元視頻大模型不僅能生成人物中景還能展示人物特寫,鏡頭轉換的過程絲滑又頗具電影質感。

今年以來,「等我老了依靠小貓來養老」「老照片古人物動起來」等用AI大模型製作的上述視頻走紅網路,視頻領域儼然已成AI技術落地的首個橋頭堡。在溝通會上騰訊還宣布開源該視頻生成大模型,參數量130億,是當前最大的視頻開源模型。目前,用戶可在騰訊元寶APP的「AI視頻」板塊申請試用。

超寫實電影感視頻,AI一鍵生成了

溝通會上,騰訊混元多模態生成技術負責人凱撒透露,用戶只需輸入一段描述,即可生成視頻。目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。

下面來展示一些用混元最新視頻大模型生成的實驗案例,比如輸入提示詞:「超大海浪,衝浪者在浪花上起跳,完成空中轉體。攝影機從海浪內部穿越而出,捕捉陽光透過海水的瞬間。水花在空中形成完美弧線,衝浪板划過水面留下軌跡。最後定格在衝浪者穿越水簾的完美瞬間。」

AI一鍵生成「電影感」視頻,人人都能當「導演」 - 天天要聞

視頻生成的效果可以看到,水和人在視頻演進的過程中都分離呈現得很好,鏡頭從衝浪者到水花再到衝浪者出水,整體非常流暢。

再舉一個頗具西方電影感的例子,輸入提示詞「穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位於布滿灰塵的閣樓中,閣樓里有老舊的橫樑和被布料遮蓋的傢具。閣樓的場景映照在鏡子中。」

AI一鍵生成「電影感」視頻,人人都能當「導演」 - 天天要聞

生成的視頻中幽靈在鏡子前跳舞,視頻有前景也有後景,幽靈在床單中跳舞的動作可以通過床單的褶皺展示,電影氛圍和電影感打光都做到了。

有讀者可能會想,上面的例子都比較現代化,如果想要生成古風的人物,還有效嗎?輸入提示詞「一位中國美女穿著漢服,頭髮飄揚,背景是倫敦,然後鏡頭切換到特寫鏡頭」。

AI一鍵生成「電影感」視頻,人人都能當「導演」 - 天天要聞

從生成的視頻可以看到,混元真是貫通中西!從中景到大特寫,雖然經歷了一個電影語境上的「大跳切」,但是一點也不突兀,中景古風美女衣袂飄飄,切到特寫時美女頭上髮帶、釵環甚至連頭髮絲都在隨風飄動,另外混元把人物臉上的微小瑕疵也做出來了,很有真實感。

除了單主體鏡頭,混元視頻大模型在多主體上也做得很好。輸入提示詞「特寫鏡頭拍攝的是一位60多歲、留著鬍鬚的灰發男子,他坐在巴黎的一家咖啡館裡,沉思著宇宙的歷史,他的眼睛聚焦在畫外走動的人們身上,而他自己則基本一動不動地坐著,他身穿羊毛大衣西裝外套,內襯系扣襯衫,戴著棕色貝雷帽和眼鏡,看上去很有教授風範,片尾他露出一絲微妙的閉嘴微笑,彷彿找到了生命之謎的答案,燈光非常具有電影感,金色的燈光,背景是巴黎的街道和城市,景深,35毫米電影膠片。」

AI一鍵生成「電影感」視頻,人人都能當「導演」 - 天天要聞

這段提示詞中主體除了「灰發男子」,還有「畫外走動的人們」「巴黎的街道和城市」。生成的視頻可以看到,從特寫切到中景,男子臉上的光、表情細節,以及背景中走動的人、城市景色都表現出來了,背景與前景相互結合,也做到了所謂的「電影感」。

結合以上案例不難看出,目前騰訊混元生成視頻大模型可以實現超寫實畫質、生成高度符合提示詞的視頻畫面,畫面流暢不易變形。

比如,在衝浪、跳舞等大幅度運動畫面的生成中,騰訊混元可以生成非常流暢、合理的運動鏡頭,物體不易出現變形;光影反射基本符合物理規律,在鏡面或者照鏡子場景中,可以做到鏡面內外動作一致。值得一提的是,混元目前已實現了在畫面主角保持不變的情況下自動切換鏡頭,這是業界大部分模型所不具備的能力。

同時,在與國內外多個頂尖模型的評測對比顯示,混元視頻生成模型在文本視頻一致性、運動質量和畫面質量多個維度效果領先,在人物、人造場所等場景下表現尤為出色。

AI一鍵生成「電影感」視頻,人人都能當「導演」 - 天天要聞

文生視頻評測結果。

全面開源,上元寶可免費使用

目前該模型已上線騰訊元寶APP,用戶可在AI應用中的「AI視頻」板塊申請試用。企業客戶通過騰訊雲提供服務接入,目前API同步開放內測申請。

AI一鍵生成「電影感」視頻,人人都能當「導演」 - 天天要聞

通過騰訊元寶APP-AI應用-AI視頻即可使用該功能。

同時,騰訊方面還宣布,此次發布的視頻生成大模型已在Hugging Face平台及Github上發布,包含模型權重、推理代碼、模型演算法等完整模型,全面開源,可供企業與個人開發者免費使用和開發生態插件。基於騰訊混元的開源模型,開發者及企業無需從頭訓練,即可直接用於推理,並可基於騰訊混元系列打造專屬應用及服務,能夠節約大量人力及算力,加速行業創新步伐。

從年初以來,騰訊混元系列模型的開源速度不斷加快。就在11月初,騰訊召開混元大模型媒體溝通會,宣布最新的MoE模型「混元Large」以及混元3D生成大模型「 Hunyuan3D-1.0」正式開源。

今年以來,「等我老了依靠小貓來養老」「老照片古人物動起來」等用AI大模型製作的上述視頻走紅網路。視頻領域儼然已成AI技術落地的首個橋頭堡。不少AI視頻出圈的背後,是「中國版Sora」的快速崛起。今年春節期間,Sora的橫空出世投下了一枚炸彈,瞬間讓卷「文生文」「文生圖」的大模型廠商開啟了「視頻ChatGPT時代」。不過,Sora一鳴驚人後卻遲遲未上線,被外界稱為「期貨」。

在這期間,多家中國廠商搶先入場,推出了視頻大模型產品,包括位元組快手阿里雲崑崙萬維、美圖在內的互聯網廠商,以及Minimax、智譜、愛詩科技與生數科技等大模型初創等廠商都在快速跟進。

騰訊混元多模態生成技術負責人凱撒在溝通會後接受採訪時表示,目前不少業界產品和模型都有先發優勢,但團隊在研發時發現,現在視頻生成特別是文生視頻領域成熟度遠沒有大家想像的那麼高,失敗率仍很高。「在我們內部評估,這個技術程度還沒有到大規模商業化的程度,還在技術打磨階段。我們選擇在這個階段推出它,同時選擇對外開源,希望跟社區一起把技術早日推向像AI圖像生成這樣真正可用的狀態。」

采寫:南都記者 林文琪

科技分類資訊推薦

小米SU7讓「智駕平權」徹底泡湯 - 天天要聞

小米SU7讓「智駕平權」徹底泡湯

上一周車圈最熱門的事件就是小米SU7的事故,身邊人藉此次事故問我小米汽車如何,我說非常好,至少在所有新能源車之中是最靠譜最安全的。因為這個事故不賴小米,或者說這次事故源於對智駕「無腦依賴」的人群。
25款賓士S級發布,能比蔚來ET9強? - 天天要聞

25款賓士S級發布,能比蔚來ET9強?

賓士日前於官方網站上正式公布了 2025 年款 S-Class 車系的車型更新,內容包含了 Drive Pilot 主動輔助駕駛機能的強化、Manufaktur 特別訂製增加了新車色及內飾訂製選項,同時亦強化了信息娛樂系統的科技智能表現,藉此持續提升 S-Cl
2代氫燃料電池新車發布,現代放棄電動車了? - 天天要聞

2代氫燃料電池新車發布,現代放棄電動車了?

現代於 2024 年 10 月舉辦的於韓國首爾 Clearly Committed 活動上,曾首度發表了 Initium 氫燃料電池(FCEV)概念車,不僅揭露品牌全新設計語言,亦預告 2025 年上半年將推出的新一代 FCEV 量產車。UCAR 採訪團隊亦前
大改款森林人發布,還是熟悉的味道 - 天天要聞

大改款森林人發布,還是熟悉的味道

第 6 代大改款斯巴魯森林人最早於 2023 年洛杉磯車展首演,美規車型先後透過自然吸氣、Hybrid 動力與市場進行溝通。近日斯巴魯原廠透過日本官網揭露全新日規森林人的上市信息,預告將推出 2 種動力、6 種車型,以及 STI Sport 等豐富套件。
4月新車扎堆,有快有大又有便宜實惠的! - 天天要聞

4月新車扎堆,有快有大又有便宜實惠的!

2025年第一季度已經過去了,馬上又迎來了新一季度,從各大車企公布的信息來看,多款新車會來,適逢兩年一度的上海車展將開幕,相信各大車企都會把自家今年的重磅新車放在這個時候。那事不宜遲,馬上跟老司機來看看4月有哪些重磅新車。
樂道 L90 官方諜照發布!計劃 2025 上海車展亮相 - 天天要聞

樂道 L90 官方諜照發布!計劃 2025 上海車展亮相

4 月 3 日,樂道品牌官方發布了旗下 L90 車型的諜照,新車計劃於 2025 年 4 月上海車展正式亮相,這一消息在車迷圈引發了熱烈討論。作為樂道品牌第二款重磅車型,L90 承載了消費者對高品質出行的期待。如果有感興趣的朋友,可以來了解一下。
長安啟源Q07正式預售,13.98萬元起,預訂可享7重先享禮 - 天天要聞

長安啟源Q07正式預售,13.98萬元起,預訂可享7重先享禮

3月31日,長安啟源Q07先享預訂發布會在雲南大理舉行,「全家人的智能SUV」——長安啟源Q07正式開啟預售,預售價13.98萬元起,共推出5個版本,並首發月華銀限定色,為不同需求的家庭用戶提供自由選擇,更有7重先享預訂專屬好禮,大訂用戶可享「大訂1999抵4