Veo3逼真脫口秀火爆全網，視頻生成的GPT時刻到了嗎？

2025年05月26日11:13:06 科技 1012

“如果AI生成的角色拒絕相信他們是AI生成的，會怎麼樣？”

近日，海外博主用谷歌最新視頻模型Veo 3生成的一些人物視頻火了。在這些視頻中，有一群人集體高呼抗議“We're not prompts（我們不是提示詞）”，還有一位男士舉着手機自拍，背景是美妙的高山峽谷，他指着身後，“你想說我背後的完美創造物，僅僅是0和1的結果，一串二進制代碼，再無其他？這不合理。”

當然台詞和劇本是人創作的，但由AI生成的這些人物和場景都極具真實感，無論是光線在人臉上投下的陰影與高光，還是人物的長相、口型，在陽光下眯起眼睛的神態都極為自然。配合Veo 3新的原生音頻生成功能，人們再一次驚呼“真實不存在了”。

事實是否真的如此，視頻生成的GPT時刻終於來了嗎？第一財經記者採訪的Veo 3的使用者們並不這麼認為。AI Talk主理人、AIGC創作者汗青提到，Veo 3確實是很好的技術，但並沒有網傳那麼誇張，例如視頻生成質量有提升但不驚艷，價格不低，現階段對實際生產幫助還不大。

AIGC創作領域的KOL@尾鰭Vicky對第一財經表示，Veo 3的文生效果是很好，但圖生效果與國內第一梯隊產品差不多，而在AI創作中，圖生視頻是更重要的工作流模式，綜合價格看還未達到使用者的預期。

是時候和好萊塢說再見了？

Veo 3是谷歌在近日的I/O大會上發布的一系列更新之一，在當時一眾眼花繚亂的產品線更新中，並不特別突出，但目前已經超過了其基座模型、智能眼鏡更新，成為討論度最高的產品。

Veo 3最大的迭代是，新增了原生音頻生成功能，即模型在生成視頻的同時能生成環境音和人物對話等，走出了此前視頻生成的“無聲時代”。從谷歌的演示看，無論是城市街道的車流聲、公園中的鳥鳴，甚至是角色對話，均可通過文本提示生成。

在發布新視頻模型的同時，谷歌也發布了針對電影製作人的視頻創作工具FLOW。汗青認為，Veo 3配合FLOW的剪輯功能，是AI影像新一代工作流的雛形。

Veo 3發布後，汗青第一時間進行了測試，他用大概兩個多小時生成了一條一分半鐘的短片《前行列車》，包括影像在內，所有的配音、音效、對口型工作均由Veo 3完成。記者觀察到，無論是畫面、長鏡頭的鏡頭運動、人物表情和神態都非常有電影的質感。

汗青認為，Veo 3的優勢是真正原生多模態，原來的工作流是生成圖像、生成動畫、生成配音/音效/音樂，最後對口型，但Veo 3的工作流是：文字生成動畫，全部搞定。

“Veo 3生成的視頻，會根據你的要求自動配上音樂和音效，提示詞里如果有台詞，甚至連配音和對口型都做完了。這應該是本次模型最大的亮點之一。在這個新的多模態範式里，你不用再單獨去折騰音樂和找配音、對口型了。”汗青表示，這種一次性生成的體驗，不是一站式生成，價值不言而喻，如果體驗打磨到位，會大大降低創作的門檻，提升效率。

國外也不乏讚美的聲音。海外AI影片製作者@PJ Ace在X上表示，自己曾經拍攝過價值50萬美元的藥品廣告，但現在不到一天的時間內就用500美元的 Veo 3積分完成了一個一分多鐘廣告視頻，“現在花 50 萬美元的理由是什麼？（此前）拍這樣的廣告，從劇本到最終剪輯，我和50個工作人員得花兩個多月的時間。”

有網友評論表示，從上面提及的這些數字來看，一部時長3小時的AI製作的電影成本約為 9 萬美元，“是時候和好萊塢說再見了”。 @PJ Ace認為，AI製作相比好萊塢便宜了10到20倍。

這次出圈的脫口秀視頻是海外博主@Hashem Al-Ghaili用Veo 3製作的，他用谷歌的Veo 3做了一個測試，“想象一下，如果AI角色意識到他們生活在模擬環境中會是什麼樣子”。

谷歌DeepMind首席執行官哈薩比斯（Demis Hassabis）轉發了這一視頻，並表示，Veo 3在建模直觀物理方面的表現令人驚嘆，在他看來，這對世界的計算複雜性有着重要的意義。他透露，Veo 3的逼真效果源於其對複雜物理現象的推斷能力。

在帖子下面，科技圈名人馬斯克也現身稱讚，認為Veo 3“Nice work（幹得漂亮）”。

在磐霖資本風險合伙人陳利人看來，一個高中生用Veo 3生成的短片就能在TikTok獲得百萬播放量，畫面質量堪比漫威電影預告片，這就像數碼相機終結柯達對影像的壟斷，GitHub讓程序員不必擠進硅谷才能創造偉大產品。“當工具將專業創作能力賦予普通人，壟斷文化生產的傳統中心將失去存在的必要性。”

I/O大會之前，谷歌組織了一次媒體溝通會，第一財經記者曾問及谷歌的產品經理David，他們是如何實現Veo視頻模型的質量提升的，他回復稱，團隊通過早期版本的實踐，了解了需要改進的方向、適用的架構、數據類型，以及如何為模型提供準確、高質量和充足的數據，所有這些經驗都融入了迭代過程，這才有了Veo模型的驚喜。

也有業內人士認為，谷歌模型的進展離不開“數據金礦”YouTube，憑藉海量的視頻資源，谷歌可以輕鬆訓練AI模型，生成效果自然遠超競爭對手。哈薩比斯近日在播客節目中提到Veo 3表示，在視頻模型方面，“我們對數據質量管理非常嚴格”。

GPT時刻到了嗎

儘管Veo 3的視頻生成質量有提升，但長期接觸視頻生成產品的AI創作者們並不覺得這是“GPT時刻”。

汗青認為，從生成效果上看Veo 3有提升但並不驚艷，“相比Veo 2，效果低於我的預期。”而在真實度這方面，他提到，Veo系列本來就是天花板，此前發布的Veo 2真實性已經很強，Veo 3是向前又走了一步。

與此同時，視頻生成的瑕疵還有很多，例如，在火出圈的視頻中，一個“方頭小孩”明顯生成失誤，還有被採訪的女孩說話時，嘴型與發音略有偏差。汗青體驗發現，偶爾出現沒有音頻的現象，一致性很難把控等等。

汗青用Veo 3生成了一個女主和蜘蛛俠一起做播客訪談的視頻，可以看到其仿真度非常高，但背後LOGO的“AI.TALK”一直沒能顯示正確。

汗青也嘗試了在8秒的生成長度中能容納對話的上限能力，發現在台詞較多的時候，會出現丟台詞、對話主體混亂（A說了B的話）之類的問題，同時對中文的支持並不好，大部分情況下都會出錯。這些都是Veo 3需要不斷完善的，遠遠達不到完美。

汗青肯定了Veo 3音畫同出的方式，確實大幅度提升了創作效率，但目前體驗下來很多效果遠遠不夠理想，“它的意義是提出一個很有價值的方向，並且比Sora實現得要好得多，但千萬別指望現在就能用它做大量的商業生產。”

實際上，第一財經問及視頻生成現階段的挑戰時，David也表示，這個領域仍處於早期階段，視頻生成的首要挑戰是非常基礎的問題——指令遵循。用戶提出需求後，是否能得到預期的結果，這也是谷歌在持續改進的方向。

對於創作者來說，除開這些瑕疵點，Veo 3最大問題是文生工作流模式和昂貴的價格。

@尾鰭Vicky與多個視頻生成平台都有合作，她表示，Veo 3主要是文生效果很好，但從現階段真實的商業化生產場景來說，文生視頻並不是主要生產力。實際上創作者們“幹活”用即夢、可靈、PixVerse、Vidu較多。

AI影視出現至今，AI創作者們有一個業內基本遵循的工作流範式，即以圖像為核心，按圖像去生成視頻、再去音頻融合（配音口型），最後剪輯，這是基本流程，而文生視頻的流程，不確定性更高。因此當一個新模型不支持圖生視頻時，則意味着創作者們無法將其用於生產流程。

“即便是Veo 3的出現，我也不認為AI創作基本流程在短期內會有太大的變化，因為控圖比控視頻的成本低太多了。”汗青也認為，傳統的工作流在效率上存在很大的提升空間，Flow的發布讓人們看見這種可能性正在形成，不過，還有很長的路要走。

Veo 3另一個問題是價格。目前要使用Veo 3，首先需要谷歌美區賬號，同時訂閱谷歌最貴的AI ultra套餐，費用高達每月249.99美元（約為人民幣1800元），這比OpenAI旗下最貴套餐ChatGPT Pro還貴近50美元。不過，目前首次使用AI ultra的用戶在前三個月可以享受50%的特別優惠，現價暫時是124.99美元每月（約為人民幣900元）。

但如果用於商業流程，AI ultra套餐也並不夠用。汗青介紹，目前每個8秒的Veo 3視頻需要150積分，ultra的套餐只贈送12500積分/月，超出部分需要加油包，100個積分1美元，算下來大約1個8秒的鏡頭就需要1.5美元。

“套餐里這點積分拿來做商業項目是肯定不夠的，一般都要涉及加油包的購買。由於文生視頻的不可控性，成片率並不高。”汗青表示，以他做的《前行列車》為例，這條一分半的視頻，用了6000-7000積分，花費在70美元左右。

從整體上來看，汗青認為Flow和Veo 3是有里程碑意義的一次發布，但絕不推薦大部分人目前重度使用它，除非是氪金玩家，或者有明確商業回報的項目。“惱人的瑕疵非常多，遠談不上完美，也很貴。但意義是讓我們看到了新的AI影像工作流的雛形。”

(本文來自第一財經)