作者:趙雨荷
來源:硬ai
谷歌的旗艦ai研究實驗室google deepmind周一大幅升級其人工智慧驅動的內容生成工具,推出了veo 2視頻生成模型和增強版imagen 3圖像模型,挑戰openai在ai圖像和視頻生成的領先地位。谷歌表示,這些更新有望徹底改變創意工作流程,為視頻和圖像創作者提供更高的真實感和定製化體驗。
谷歌介紹,veo 2是谷歌的視頻生成工具,能夠生成多樣化主題和風格的高質量視頻。谷歌在博客中表示,這款模型在真實感方面表現卓越,能夠捕捉到人類表情和電影效果等細節。其增強的物理和電影學理解能力使用戶能夠生成令人驚嘆的內容,包括跟蹤鏡頭和廣角構圖等。
例如,veo 2熟悉電影拍攝語言,用戶可以要求某種類型的風格,指定鏡頭,建議電影效果,veo 2都會以高達4k解析度並延長到數分鐘的視頻長度來呈現。比如,要求「低角度跟蹤鏡頭穿越場景中央」或「特寫科學家通過顯微鏡觀察」的鏡頭,veo 2都能實現。提示「18mm鏡頭」,veo 2知道生成廣角鏡頭;要求「淺景深」,它會模糊背景,突出主體。
值得注意的是,這一解析度是openai sora模型的4倍,視頻時長更是其6倍以上。
不過,目前這些優勢仍是理論上的。在谷歌的實驗性視頻創作工具videofx中,veo 2生成的視頻被限制為720p解析度、8秒的長度。(相比之下,sora的最大輸出為1080p、20秒的短片。)
谷歌表示,雖然視頻生成模型往往會「幻象化」出不需要的細節,例如多餘的手指或意外的物體,但veo 2在這一方面的表現更為真實,生成錯誤的頻率較低。
此外,veo 2生成的視頻包括不可見的synthid水印,用於標記它們為ai生成的內容,從而減少誤用或錯誤歸屬的風險。
deepmind產品副總裁eli collins對媒體表示,隨著模型逐漸具備規模化使用的準備,谷歌將通過其vertex ai開發者平台提供veo 2。
「未來幾個月,我們將根據用戶反饋持續迭代,並尋求將veo 2的更新能力整合到谷歌生態系統中的相關應用中……我們預計明年會分享更多的更新內容。」
開發者和創作者目前可以通過谷歌實驗室(google labs)訪問該工具,預計到2025年,它將廣泛集成至諸如youtube shorts等平台。
同時,imagen 3模型在圖像構圖和細節準確性方面得到了增強,支持從寫實到抽象的各種風格,能夠生成更豐富的紋理,並更加忠實地回應用戶提示。
目前,imagen 3已經通過谷歌實驗室的imagefx工具在100多個國家上線,全球用戶可以試驗其尖端功能。
此外,谷歌還推出了whisk,這是一款結合了imagen 3和gemini視覺分析能力的創意工具。用戶可以輸入圖像,生成詳細的文字描述、重新混合風格,或設計個性化作品,如數字玩偶或搪瓷徽章。
谷歌介紹,whisk結合了imagen 3模型和gemini的視覺理解與描述能力。gemini模型會自動為用戶的圖像生成詳細的文字描述,並將這些描述傳遞給imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場景和風格。