快手類Sora大模型公測「搶號」激烈，圖生視頻功能將上線

分類：遊戲

瀏覽數：5178

2024-06-12

南都記者從快手獲悉，快手對標sora的視頻生成大模型「可靈」自6月6日開放邀請測試後，截至6月12日已有超過6萬人排隊申請測試，平均每天萬人爭搶測試賬號。「可靈」大模型目前僅開放「文生視頻」功能，「圖生視頻」功能將於近期推出。

今年2月中旬，openai的文生視頻大模型sora橫空出世，採用「diffusion+transformer」（dit）架構，可以生成長達1分鐘的流暢視頻，但迄今未正式發布也未開放公測，僅向一些藝術家定向提供了使用許可權。6月15日，五部使用sora創作的短片作品將亮相美國的翠貝卡電影節。openai cto米拉·穆拉蒂（mira murati）3月中旬曾透露，計劃「今年晚些時候」正式推出sora。

據快手介紹，作為sora的國內「平替」，「可靈」大模型由快手ai團隊自研，採用類sora的技術路線並結合多項自研技術，能生成高達2分鐘的視頻，生成視頻解析度可達1080p，且支持自由的寬高比視頻輸出。快手稱，訓練時長的實現，「得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構」。

官方展示的一段「一名宇航員在月球表面奔跑」的視頻示例顯示，隨著鏡頭慢慢抬升，宇航員跑步的動作較為流暢輕盈，步態和影子的運動也符合常識。另一則「小男孩吃漢堡」的視頻中，男孩咬下漢堡後留下缺口，漢堡的這一缺口在視頻中持續保持。快手意在藉此表明「可靈」大模型能夠像sora那樣，模擬真實物理世界的特性。

「小男孩吃漢堡」的視頻截圖

「大模型的生成效果取決於數據的規模和質量，以及大規模訓練的效率。」快手方面表示，「可靈」大模型在研發過程中，配套建設了高效的大規模自動化數據解決方案，覆蓋了海量視頻挖掘、多維打標篩選、視頻描述增強及數據驅動的效果質量評估等多個方面。

自sora引爆視頻生成大模型賽道以來，國內許多創業公司紛紛加入戰局。

3月11日，完成億元a1輪融資的愛詩科技上線「愛詩視頻大模型」（海外版為pixverse），並宣稱「在3-6個月內趕超sora目前水平」。3月12日，另一家視頻生成大模型初創公司生數科技也宣布完成數億元融資。4月末，生數科技發布視頻生成模型vidu，支持一鍵生成長達16秒、解析度高達1080p的高清視頻內容。生數科技還於6月初宣布完成數億元pre-a輪融資，由北京市人工智慧產業投資基金、百度聯合領投。

從各家表現比較來看，快手「可靈」是國內首個面向用戶開放邀測的sora級文生視頻大模型。

同樣擁有海量短視頻訓練數據資源的抖音，則一直沒有推出對標sora的視頻生成大模型，僅在5月上線具有ai視頻生成功能的「即夢dreamina」產品，提供文生視頻和圖生視頻兩種創作方式，生成的視頻時長限制在3-6秒。

券商申萬宏源近期在一份研報中分析，快手發布可靈大模型，是國內ai視頻生成技術的重大突破，抖音的即夢 ai、愛詩科技的pixverse與 sora仍有差距，「可靈」文生視頻效果已可對標，有助於提振對國內ai產業的信心。

采寫：南都見習記者楊柳

「快手類Sora大模型公測「搶號」激烈，圖生視頻功能將上線」相關視頻

遊戲分類資訊推薦