從Image2到Midjourney,一場血腥的技術哲學道統之爭

生圖標準,正在被重寫

作者| 大先生

用image2幾天後

我突然想到midjourney怎樣了?

ai生圖圈一直以來都有個都市傳說:

💡新模型三天降智,五天沒熱度

然後大家回到原來的工作流,該用啥用啥

image2不一樣,用了幾天之後,我意識ai生圖的價值判斷標準開始變了。

image2帶來的衝擊不只在於「它也能畫得好看」,而在於它把過去ai生圖裡最難受的幾個問題,文字、局部修改、連續編輯、複雜指令執行、空間判斷,做到了像素級別的可控性。

可控性在工作中,向來珍貴。

提示詞:女生位置向前移一步,在她身後增加光源,勾勒微光剪影,女生的額頭的頭髮減少幾根

然後,我腦子裡突然冒出一個問題:

💡曾經的王者midjourney現在怎麼樣了?

midjourney不死只是凋零

如果你和我一樣是2022、2023年入坑ai生圖的人,midjourney幾乎是你的第一站。

那種獨特的、帶著油畫質感的美學風格,讓無數人第一次感受到ai也能創作。它的商業模式也跑通了:純靠訂閱制,沒有外部融資,david holz帶著一個小團隊,做到了年收入過億美元的規模。

相同提示詞下,左:midjourney7右:image2

💡midjourney依然在美學上體現個性

image2能精準給出了文字信息

2022年2025年midjourney無論營收還是技術上,都是王者。

但在2025年之後,midjourney的處境就開始變得微妙:

直到image2出現,把靈感抽卡,向精確生產推進了一大步。這背後,其實是一場技術哲學道統之爭。

道統之爭:擴散模型vs自回歸模型

▌擴散模型:從混沌中召喚秩序

從雜訊出發,一步步去噪,把秩序從虛無中鑿出來。這套邏輯讓擴散模型天生是美學動物,光影、構圖、色彩自然協調,給它一個模糊意象,它還你一幅有靈魂的畫。midjourney、sora、veo、seedance,所有叫得出名字的頂級模型,清一色是這個門派的信徒,統治ai視覺生成整整五年。

但正統有正統的原罪:文字是它永遠無法癒合的傷口。這不是訓練不夠,是架構層面的基因缺陷,打多少補丁都治不好根。

▌自回歸模型:用理解來作畫

gpt image2把圖像當成一種語言,像寫文章一樣一個token一個token地畫出來。於是文字變成母語、gpt-4o的整個大腦直接參与作畫、局部修改精準如手術刀。

它有"想"這個動作,擴散模型只有"感覺"。

擴散模型證明了機器可以有審美,自回歸模型證明了機器可以有理解。midjourney的美學護城河還在,但正被一個問題侵蝕:當理解越來越強,感覺還值多少錢?

這場道統之爭,在視頻領域同樣在上演:但有趣的是,陣營換了位置。

▌sora:openai的擴散模型視頻

前幾天被宣判死刑的sora採用的是dit(diffusion transformer)架構:擴散模型與transformer的結合體。

它的核心思路是:把視頻壓縮成時空patch(時空塊),在潛空間(latent space)里做擴散去噪,最終還原出視頻。sora曾經的優勢是長視頻、複雜場景、物理真實感,能生成超過1分鐘的連貫視頻,場景切換自然,物理規律遵循較好。但它訪問受限、價格昂貴,且生成速度較慢。

▌seedance2.0:bytedance的多模態擴散

seedance2.0,大概率基於dit擴散架構,但在此基礎上做了一個關鍵突破:統一多模態音視頻聯合生成架構

它支持同時輸入最多15路混合模態:9張圖像+3段視頻+3段音頻+自然語言,一次性生成帶有同步音效的視頻。

更重要的是它的兩個核心能力:

•identity locking(身份鎖定):

通過"reference cluster(參考簇)"機制,將角色的面部特徵、服裝紋理綁定到生成輸出,在角色運動過程中保持視覺一致性。

•物理模擬:

能生成雙人花樣滑冰的高難度動作序列,冰屑飛濺、服裝隨動、光影折射,嚴格遵循真實物理規律。

▌兩者核心差異對比

有意思的是:在圖像領域,openai用自回歸顛覆了擴散模型的統治;在視頻領域,雙方都在用擴散模型競爭,差異在於多模態融合的深度和商業化的速度。

未來在哪裡?

擴散模型和自回歸模型的道統之爭還遠沒有結束,他們之間的戰場已經悄悄延伸到了下一世代:

📌生圖:自回歸將繼續蠶食擴散模型的領地

gpt image2已經證明,自回歸架構在精確控制、文字渲染、指令遵循上有結構性優勢。隨著推理速度的提升和模型壓縮技術的成熟,自回歸生圖的速度劣勢會逐步縮小。

未來的生圖模型,很可能走向混合架構,用自回歸做語義規劃和布局,用擴散模型做細節渲染和美學優化,取兩者之長。

📌生視頻:擴散模型短期仍是主流,但自回歸化是趨勢

視頻生成的核心難題是時序一致性——相鄰幀之間的連貫性,擴散模型在這方面有天然優勢。但隨著自回歸模型處理更長序列的能力增強,"把視頻token化"的路線也在探索中。

openai已經在嘗試用統一的自回歸架構同時處理圖像和視頻token。這意味著未來可能出現一個模型,從同一個prompt直接輸出靜圖、gif、短視頻,由用戶選擇格式。

📌最終形態:多模態世界模型

無論擴散還是自回歸,兩條路最終都在走向同一個目標:

💡一個能夠理解、創作、編輯整個視覺世界的多模態世界模型。

圖像是它的一個輸出切面,視頻是另一個,3d場景、ar內容將是下一個。

當這一天到來,生圖工具和生視頻工具的分可能就會消失。