AI一鍵生成「電影感」視頻，人人都能當「導演」

2024年12月04日23:03:03 科技 1215

騰訊旗下混元大模型，正在「招聘」導演。12月3日，在混元大模型媒體溝通會上，騰訊公布了旗下模型最新進展：正式上線視頻生成能力。現場生成視頻顯示，無論是在水裡衝浪，還是在閣樓里跳舞，只要你的想像力「夠用」，輸入精確提示詞後都能一鍵生成。另外在人物展示方面，混元視頻大模型不僅能生成人物中景還能展示人物特寫，鏡頭轉換的過程絲滑又頗具電影質感。
今年以來，「等我老了依靠小貓來養老」「老照片古人物動起來」等用AI大模型製作的上述視頻走紅網路，視頻領域儼然已成AI技術落地的首個橋頭堡。在溝通會上騰訊還宣布開源該視頻生成大模型，參數量130億，是當前最大的視頻開源模型。目前，用戶可在騰訊元寶APP的「AI視頻」板塊申請試用。

超寫實電影感視頻，AI一鍵生成了

溝通會上，騰訊混元多模態生成技術負責人凱撒透露，用戶只需輸入一段描述，即可生成視頻。目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。

下面來展示一些用混元最新視頻大模型生成的實驗案例，比如輸入提示詞：「超大海浪，衝浪者在浪花上起跳，完成空中轉體。攝影機從海浪內部穿越而出，捕捉陽光透過海水的瞬間。水花在空中形成完美弧線，衝浪板划過水面留下軌跡。最後定格在衝浪者穿越水簾的完美瞬間。」

視頻生成的效果可以看到，水和人在視頻演進的過程中都分離呈現得很好，鏡頭從衝浪者到水花再到衝浪者出水，整體非常流暢。

再舉一個頗具西方電影感的例子，輸入提示詞「穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位於布滿灰塵的閣樓中，閣樓里有老舊的橫樑和被布料遮蓋的傢具。閣樓的場景映照在鏡子中。」

生成的視頻中幽靈在鏡子前跳舞，視頻有前景也有後景，幽靈在床單中跳舞的動作可以通過床單的褶皺展示，電影氛圍和電影感打光都做到了。

有讀者可能會想，上面的例子都比較現代化，如果想要生成古風的人物，還有效嗎？輸入提示詞「一位中國美女穿著漢服，頭髮飄揚，背景是倫敦，然後鏡頭切換到特寫鏡頭」。

從生成的視頻可以看到，混元真是貫通中西！從中景到大特寫，雖然經歷了一個電影語境上的「大跳切」，但是一點也不突兀，中景古風美女衣袂飄飄，切到特寫時美女頭上髮帶、釵環甚至連頭髮絲都在隨風飄動，另外混元把人物臉上的微小瑕疵也做出來了，很有真實感。

除了單主體鏡頭，混元視頻大模型在多主體上也做得很好。輸入提示詞「特寫鏡頭拍攝的是一位60多歲、留著鬍鬚的灰發男子，他坐在巴黎的一家咖啡館裡，沉思著宇宙的歷史，他的眼睛聚焦在畫外走動的人們身上，而他自己則基本一動不動地坐著，他身穿羊毛大衣西裝外套，內襯系扣襯衫，戴著棕色貝雷帽和眼鏡，看上去很有教授風範，片尾他露出一絲微妙的閉嘴微笑，彷彿找到了生命之謎的答案，燈光非常具有電影感，金色的燈光，背景是巴黎的街道和城市，景深，35毫米電影膠片。」

這段提示詞中主體除了「灰發男子」，還有「畫外走動的人們」「巴黎的街道和城市」。生成的視頻可以看到，從特寫切到中景，男子臉上的光、表情細節，以及背景中走動的人、城市景色都表現出來了，背景與前景相互結合，也做到了所謂的「電影感」。

結合以上案例不難看出，目前騰訊混元生成視頻大模型可以實現超寫實畫質、生成高度符合提示詞的視頻畫面，畫面流暢不易變形。

比如，在衝浪、跳舞等大幅度運動畫面的生成中，騰訊混元可以生成非常流暢、合理的運動鏡頭，物體不易出現變形；光影反射基本符合物理規律，在鏡面或者照鏡子場景中，可以做到鏡面內外動作一致。值得一提的是，混元目前已實現了在畫面主角保持不變的情況下自動切換鏡頭，這是業界大部分模型所不具備的能力。

同時，在與國內外多個頂尖模型的評測對比顯示，混元視頻生成模型在文本視頻一致性、運動質量和畫面質量多個維度效果領先，在人物、人造場所等場景下表現尤為出色。

文生視頻評測結果。

全面開源，上元寶可免費使用

目前該模型已上線騰訊元寶APP，用戶可在AI應用中的「AI視頻」板塊申請試用。企業客戶通過騰訊雲提供服務接入，目前API同步開放內測申請。

通過騰訊元寶APP-AI應用-AI視頻即可使用該功能。

同時，騰訊方面還宣布，此次發布的視頻生成大模型已在Hugging Face平台及Github上發布，包含模型權重、推理代碼、模型演算法等完整模型，全面開源，可供企業與個人開發者免費使用和開發生態插件。基於騰訊混元的開源模型，開發者及企業無需從頭訓練，即可直接用於推理，並可基於騰訊混元系列打造專屬應用及服務，能夠節約大量人力及算力，加速行業創新步伐。

從年初以來，騰訊混元系列模型的開源速度不斷加快。就在11月初，騰訊召開混元大模型媒體溝通會，宣布最新的MoE模型「混元Large」以及混元3D生成大模型「 Hunyuan3D-1.0」正式開源。

今年以來，「等我老了依靠小貓來養老」「老照片古人物動起來」等用AI大模型製作的上述視頻走紅網路。視頻領域儼然已成AI技術落地的首個橋頭堡。不少AI視頻出圈的背後，是「中國版Sora」的快速崛起。今年春節期間，Sora的橫空出世投下了一枚炸彈，瞬間讓卷「文生文」「文生圖」的大模型廠商開啟了「視頻ChatGPT時代」。不過，Sora一鳴驚人後卻遲遲未上線，被外界稱為「期貨」。

在這期間，多家中國廠商搶先入場，推出了視頻大模型產品，包括位元組、快手、阿里雲、崑崙萬維、美圖在內的互聯網廠商，以及Minimax、智譜、愛詩科技與生數科技等大模型初創等廠商都在快速跟進。

騰訊混元多模態生成技術負責人凱撒在溝通會後接受採訪時表示，目前不少業界產品和模型都有先發優勢，但團隊在研發時發現，現在視頻生成特別是文生視頻領域成熟度遠沒有大家想像的那麼高，失敗率仍很高。「在我們內部評估，這個技術程度還沒有到大規模商業化的程度，還在技術打磨階段。我們選擇在這個階段推出它，同時選擇對外開源，希望跟社區一起把技術早日推向像AI圖像生成這樣真正可用的狀態。」

采寫：南都記者林文琪