快手類Sora大模型公測「搶號」激烈,圖生視頻功能將上線

南都記者從快手獲悉,快手對標sora的視頻生成大模型「可靈」自6月6日開放邀請測試後,截至6月12日已有超過6萬人排隊申請測試,平均每天萬人爭搶測試賬號。「可靈」大模型目前僅開放「文生視頻」功能,「圖生視頻」功能將於近期推出。

今年2月中旬,openai的文生視頻大模型sora橫空出世,採用「diffusion+transformer」(dit)架構,可以生成長達1分鐘的流暢視頻,但迄今未正式發布也未開放公測,僅向一些藝術家定向提供了使用許可權。6月15日,五部使用sora創作的短片作品將亮相美國的翠貝卡電影節。openai cto米拉·穆拉蒂(mira murati)3月中旬曾透露,計劃「今年晚些時候」正式推出sora。

據快手介紹,作為sora的國內「平替」,「可靈」大模型由快手ai團隊自研,採用類sora的技術路線並結合多項自研技術,能生成高達2分鐘的視頻,生成視頻解析度可達1080p,且支持自由的寬高比視頻輸出。快手稱,訓練時長的實現,「得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構」。

官方展示的一段「一名宇航員在月球表面奔跑」的視頻示例顯示,隨著鏡頭慢慢抬升,宇航員跑步的動作較為流暢輕盈,步態和影子的運動也符合常識。另一則「小男孩吃漢堡」的視頻中,男孩咬下漢堡後留下缺口,漢堡的這一缺口在視頻中持續保持。快手意在藉此表明「可靈」大模型能夠像sora那樣,模擬真實物理世界的特性。

「小男孩吃漢堡」的視頻截圖

「大模型的生成效果取決於數據的規模和質量,以及大規模訓練的效率。」快手方面表示,「可靈」大模型在研發過程中,配套建設了高效的大規模自動化數據解決方案,覆蓋了海量視頻挖掘、多維打標篩選、視頻描述增強及數據驅動的效果質量評估等多個方面。

自sora引爆視頻生成大模型賽道以來,國內許多創業公司紛紛加入戰局。

3月11日,完成億元a1輪融資的愛詩科技上線「愛詩視頻大模型」(海外版為pixverse),並宣稱「在3-6個月內趕超sora目前水平」。3月12日,另一家視頻生成大模型初創公司生數科技也宣布完成數億元融資。4月末,生數科技發布視頻生成模型vidu,支持一鍵生成長達16秒、解析度高達1080p的高清視頻內容。生數科技還於6月初宣布完成數億元pre-a輪融資,由北京市人工智慧產業投資基金、百度聯合領投。

從各家表現比較來看,快手「可靈」是國內首個面向用戶開放邀測的sora級文生視頻大模型。

同樣擁有海量短視頻訓練數據資源的抖音,則一直沒有推出對標sora的視頻生成大模型,僅在5月上線具有ai視頻生成功能的「即夢dreamina」產品,提供文生視頻和圖生視頻兩種創作方式,生成的視頻時長限制在3-6秒。

券商申萬宏源近期在一份研報中分析,快手發布可靈大模型,是國內ai視頻生成技術的重大突破,抖音的即夢 ai、愛詩科技的pixverse與 sora仍有差距,「可靈」文生視頻效果已可對標,有助於提振對國內ai產業的信心。

采寫:南都見習記者 楊柳