騰訊旗下混元大模型,正在「招聘」導演。12月3日,在混元大模型媒體溝通會上,騰訊公布了旗下模型最新進展:正式上線視頻生成能力。現場生成視頻顯示,無論是在水裡衝浪,還是在閣樓里跳舞,只要你的想像力「夠用」,輸入精確提示詞後都能一鍵生成。另外在人物展示方面,混元視頻大模型不僅能生成人物中景還能展示人物特寫,鏡頭轉換的過程絲滑又頗具電影質感。
今年以來,「等我老了依靠小貓來養老」「老照片古人物動起來」等用AI大模型製作的上述視頻走紅網路,視頻領域儼然已成AI技術落地的首個橋頭堡。在溝通會上騰訊還宣布開源該視頻生成大模型,參數量130億,是當前最大的視頻開源模型。目前,用戶可在騰訊元寶APP的「AI視頻」板塊申請試用。
超寫實電影感視頻,AI一鍵生成了
溝通會上,騰訊混元多模態生成技術負責人凱撒透露,用戶只需輸入一段描述,即可生成視頻。目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。
下面來展示一些用混元最新視頻大模型生成的實驗案例,比如輸入提示詞:「超大海浪,衝浪者在浪花上起跳,完成空中轉體。攝影機從海浪內部穿越而出,捕捉陽光透過海水的瞬間。水花在空中形成完美弧線,衝浪板划過水面留下軌跡。最後定格在衝浪者穿越水簾的完美瞬間。」
視頻生成的效果可以看到,水和人在視頻演進的過程中都分離呈現得很好,鏡頭從衝浪者到水花再到衝浪者出水,整體非常流暢。
再舉一個頗具西方電影感的例子,輸入提示詞「穿著白床單的幽靈面對著鏡子。鏡子中可以看到幽靈的倒影。幽靈位於布滿灰塵的閣樓中,閣樓里有老舊的橫樑和被布料遮蓋的傢具。閣樓的場景映照在鏡子中。」
生成的視頻中幽靈在鏡子前跳舞,視頻有前景也有後景,幽靈在床單中跳舞的動作可以通過床單的褶皺展示,電影氛圍和電影感打光都做到了。
有讀者可能會想,上面的例子都比較現代化,如果想要生成古風的人物,還有效嗎?輸入提示詞「一位中國美女穿著漢服,頭髮飄揚,背景是倫敦,然後鏡頭切換到特寫鏡頭」。
從生成的視頻可以看到,混元真是貫通中西!從中景到大特寫,雖然經歷了一個電影語境上的「大跳切」,但是一點也不突兀,中景古風美女衣袂飄飄,切到特寫時美女頭上髮帶、釵環甚至連頭髮絲都在隨風飄動,另外混元把人物臉上的微小瑕疵也做出來了,很有真實感。
除了單主體鏡頭,混元視頻大模型在多主體上也做得很好。輸入提示詞「特寫鏡頭拍攝的是一位60多歲、留著鬍鬚的灰發男子,他坐在巴黎的一家咖啡館裡,沉思著宇宙的歷史,他的眼睛聚焦在畫外走動的人們身上,而他自己則基本一動不動地坐著,他身穿羊毛大衣西裝外套,內襯系扣襯衫,戴著棕色貝雷帽和眼鏡,看上去很有教授風範,片尾他露出一絲微妙的閉嘴微笑,彷彿找到了生命之謎的答案,燈光非常具有電影感,金色的燈光,背景是巴黎的街道和城市,景深,35毫米電影膠片。」
這段提示詞中主體除了「灰發男子」,還有「畫外走動的人們」「巴黎的街道和城市」。生成的視頻可以看到,從特寫切到中景,男子臉上的光、表情細節,以及背景中走動的人、城市景色都表現出來了,背景與前景相互結合,也做到了所謂的「電影感」。
結合以上案例不難看出,目前騰訊混元生成視頻大模型可以實現超寫實畫質、生成高度符合提示詞的視頻畫面,畫面流暢不易變形。
比如,在衝浪、跳舞等大幅度運動畫面的生成中,騰訊混元可以生成非常流暢、合理的運動鏡頭,物體不易出現變形;光影反射基本符合物理規律,在鏡面或者照鏡子場景中,可以做到鏡面內外動作一致。值得一提的是,混元目前已實現了在畫面主角保持不變的情況下自動切換鏡頭,這是業界大部分模型所不具備的能力。
同時,在與國內外多個頂尖模型的評測對比顯示,混元視頻生成模型在文本視頻一致性、運動質量和畫面質量多個維度效果領先,在人物、人造場所等場景下表現尤為出色。
文生視頻評測結果。
全面開源,上元寶可免費使用
目前該模型已上線騰訊元寶APP,用戶可在AI應用中的「AI視頻」板塊申請試用。企業客戶通過騰訊雲提供服務接入,目前API同步開放內測申請。
通過騰訊元寶APP-AI應用-AI視頻即可使用該功能。
同時,騰訊方面還宣布,此次發布的視頻生成大模型已在Hugging Face平台及Github上發布,包含模型權重、推理代碼、模型演算法等完整模型,全面開源,可供企業與個人開發者免費使用和開發生態插件。基於騰訊混元的開源模型,開發者及企業無需從頭訓練,即可直接用於推理,並可基於騰訊混元系列打造專屬應用及服務,能夠節約大量人力及算力,加速行業創新步伐。
從年初以來,騰訊混元系列模型的開源速度不斷加快。就在11月初,騰訊召開混元大模型媒體溝通會,宣布最新的MoE模型「混元Large」以及混元3D生成大模型「 Hunyuan3D-1.0」正式開源。
今年以來,「等我老了依靠小貓來養老」「老照片古人物動起來」等用AI大模型製作的上述視頻走紅網路。視頻領域儼然已成AI技術落地的首個橋頭堡。不少AI視頻出圈的背後,是「中國版Sora」的快速崛起。今年春節期間,Sora的橫空出世投下了一枚炸彈,瞬間讓卷「文生文」「文生圖」的大模型廠商開啟了「視頻ChatGPT時代」。不過,Sora一鳴驚人後卻遲遲未上線,被外界稱為「期貨」。
在這期間,多家中國廠商搶先入場,推出了視頻大模型產品,包括位元組、快手、阿里雲、崑崙萬維、美圖在內的互聯網廠商,以及Minimax、智譜、愛詩科技與生數科技等大模型初創等廠商都在快速跟進。
騰訊混元多模態生成技術負責人凱撒在溝通會後接受採訪時表示,目前不少業界產品和模型都有先發優勢,但團隊在研發時發現,現在視頻生成特別是文生視頻領域成熟度遠沒有大家想像的那麼高,失敗率仍很高。「在我們內部評估,這個技術程度還沒有到大規模商業化的程度,還在技術打磨階段。我們選擇在這個階段推出它,同時選擇對外開源,希望跟社區一起把技術早日推向像AI圖像生成這樣真正可用的狀態。」
采寫:南都記者 林文琪