從Image2到Midjourney，一場血腥的技術哲學道統之爭

分類：歷史

瀏覽數：7743

2026-04-29

生圖標準，正在被重寫

作者| 大先生

用image2幾天後

我突然想到midjourney怎樣了？

ai生圖圈一直以來都有個都市傳說：

💡新模型三天降智，五天沒熱度

然後大家回到原來的工作流，該用啥用啥

但image2不一樣，用了幾天之後，我意識ai生圖的價值判斷標準開始變了。

image2帶來的衝擊不只在於「它也能畫得好看」，而在於它把過去ai生圖裡最難受的幾個問題，文字、局部修改、連續編輯、複雜指令執行、空間判斷，做到了像素級別的可控性。

可控性在工作中，向來珍貴。

提示詞：女生位置向前移一步，在她身後增加光源，勾勒微光剪影，女生的額頭的頭髮減少幾根

然後，我腦子裡突然冒出一個問題：

💡曾經的王者midjourney現在怎麼樣了？

midjourney不死只是凋零

如果你和我一樣是2022、2023年入坑ai生圖的人，midjourney幾乎是你的第一站。

那種獨特的、帶著油畫質感的美學風格，讓無數人第一次感受到ai也能創作。它的商業模式也跑通了：純靠訂閱制，沒有外部融資，david holz帶著一個小團隊，做到了年收入過億美元的規模。

相同提示詞下，左：midjourney7右：image2

💡midjourney依然在美學上體現個性

image2能精準給出了文字信息

從2022年到2025年，midjourney無論營收還是技術上，都是王者。

但在2025年之後，midjourney的處境就開始變得微妙：

直到image2出現，把靈感抽卡，向精確生產推進了一大步。這背後，其實是一場技術哲學道統之爭。

道統之爭：擴散模型vs自回歸模型

▌擴散模型：從混沌中召喚秩序

從雜訊出發，一步步去噪，把秩序從虛無中鑿出來。這套邏輯讓擴散模型天生是美學動物，光影、構圖、色彩自然協調，給它一個模糊意象，它還你一幅有靈魂的畫。midjourney、sora、veo、seedance，所有叫得出名字的頂級模型，清一色是這個門派的信徒，統治ai視覺生成整整五年。

但正統有正統的原罪：文字是它永遠無法癒合的傷口。這不是訓練不夠，是架構層面的基因缺陷，打多少補丁都治不好根。

▌自回歸模型：用理解來作畫

gpt image2把圖像當成一種語言，像寫文章一樣一個token一個token地畫出來。於是文字變成母語、gpt-4o的整個大腦直接參与作畫、局部修改精準如手術刀。

它有"想"這個動作，擴散模型只有"感覺"。

擴散模型證明了機器可以有審美，自回歸模型證明了機器可以有理解。midjourney的美學護城河還在，但正被一個問題侵蝕：當理解越來越強，感覺還值多少錢？

這場道統之爭，在視頻領域同樣在上演：但有趣的是，陣營換了位置。

▌sora：openai的擴散模型視頻

前幾天被宣判死刑的sora採用的是dit（diffusion transformer）架構：擴散模型與transformer的結合體。

它的核心思路是：把視頻壓縮成時空patch（時空塊），在潛空間（latent space）里做擴散去噪，最終還原出視頻。sora曾經的優勢是長視頻、複雜場景、物理真實感，能生成超過1分鐘的連貫視頻，場景切換自然，物理規律遵循較好。但它訪問受限、價格昂貴，且生成速度較慢。

▌seedance2.0：bytedance的多模態擴散

seedance2.0，大概率基於dit擴散架構，但在此基礎上做了一個關鍵突破：統一多模態音視頻聯合生成架構。

它支持同時輸入最多15路混合模態：9張圖像+3段視頻+3段音頻+自然語言，一次性生成帶有同步音效的視頻。

更重要的是它的兩個核心能力：

•identity locking（身份鎖定）：

通過"reference cluster（參考簇）"機制，將角色的面部特徵、服裝紋理綁定到生成輸出，在角色運動過程中保持視覺一致性。

•物理模擬：

能生成雙人花樣滑冰的高難度動作序列，冰屑飛濺、服裝隨動、光影折射，嚴格遵循真實物理規律。

▌兩者核心差異對比

有意思的是：在圖像領域，openai用自回歸顛覆了擴散模型的統治；在視頻領域，雙方都在用擴散模型競爭，差異在於多模態融合的深度和商業化的速度。

未來在哪裡？

擴散模型和自回歸模型的道統之爭還遠沒有結束，他們之間的戰場已經悄悄延伸到了下一世代：

📌生圖：自回歸將繼續蠶食擴散模型的領地

gpt image2已經證明，自回歸架構在精確控制、文字渲染、指令遵循上有結構性優勢。隨著推理速度的提升和模型壓縮技術的成熟，自回歸生圖的速度劣勢會逐步縮小。

未來的生圖模型，很可能走向混合架構，用自回歸做語義規劃和布局，用擴散模型做細節渲染和美學優化，取兩者之長。

📌生視頻：擴散模型短期仍是主流，但自回歸化是趨勢

視頻生成的核心難題是時序一致性——相鄰幀之間的連貫性，擴散模型在這方面有天然優勢。但隨著自回歸模型處理更長序列的能力增強，"把視頻token化"的路線也在探索中。

openai已經在嘗試用統一的自回歸架構同時處理圖像和視頻token。這意味著未來可能出現一個模型，從同一個prompt直接輸出靜圖、gif、短視頻，由用戶選擇格式。

📌最終形態：多模態世界模型

無論擴散還是自回歸，兩條路最終都在走向同一個目標：

💡一個能夠理解、創作、編輯整個視覺世界的多模態世界模型。

圖像是它的一個輸出切面，視頻是另一個，3d場景、ar內容將是下一個。

當這一天到來，生圖工具和生視頻工具的分可能就會消失。

歷史分類資訊推薦