從Image2到Midjourney，一場血腥的技術哲學道統之爭

2026年04月29日08:00:23 歷史 7743

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

生圖標準，正在被重寫

作者| 大先生

用image2幾天後

我突然想到midjourney怎樣了？

ai生圖圈一直以來都有個都市傳說：

💡新模型三天降智，五天沒熱度

然後大家回到原來的工作流，該用啥用啥

但image2不一樣，用了幾天之後，我意識ai生圖的價值判斷標準開始變了。

image2帶來的衝擊不只在於「它也能畫得好看」，而在於它把過去ai生圖裡最難受的幾個問題，文字、局部修改、連續編輯、複雜指令執行、空間判斷，做到了像素級別的可控性。

可控性在工作中，向來珍貴。

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

提示詞：女生位置向前移一步，在她身後增加光源，勾勒微光剪影，女生的額頭的頭髮減少幾根

然後，我腦子裡突然冒出一個問題：

💡曾經的王者midjourney現在怎麼樣了？

midjourney不死只是凋零

如果你和我一樣是2022、2023年入坑ai生圖的人，midjourney幾乎是你的第一站。

那種獨特的、帶著油畫質感的美學風格，讓無數人第一次感受到ai也能創作。它的商業模式也跑通了：純靠訂閱制，沒有外部融資，david holz帶著一個小團隊，做到了年收入過億美元的規模。

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

相同提示詞下，左：midjourney7右：image2

💡midjourney依然在美學上體現個性

image2能精準給出了文字信息

從2022年到2025年，midjourney無論營收還是技術上，都是王者。

但在2025年之後，midjourney的處境就開始變得微妙：

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

直到image2出現，把靈感抽卡，向精確生產推進了一大步。這背後，其實是一場技術哲學道統之爭。

道統之爭：擴散模型vs自回歸模型

▌擴散模型：從混沌中召喚秩序

從雜訊出發，一步步去噪，把秩序從虛無中鑿出來。這套邏輯讓擴散模型天生是美學動物，光影、構圖、色彩自然協調，給它一個模糊意象，它還你一幅有靈魂的畫。midjourney、sora、veo、seedance，所有叫得出名字的頂級模型，清一色是這個門派的信徒，統治ai視覺生成整整五年。

但正統有正統的原罪：文字是它永遠無法癒合的傷口。這不是訓練不夠，是架構層面的基因缺陷，打多少補丁都治不好根。

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

▌自回歸模型：用理解來作畫

gpt image2把圖像當成一種語言，像寫文章一樣一個token一個token地畫出來。於是文字變成母語、gpt-4o的整個大腦直接參与作畫、局部修改精準如手術刀。

它有"想"這個動作，擴散模型只有"感覺"。

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

擴散模型證明了機器可以有審美，自回歸模型證明了機器可以有理解。midjourney的美學護城河還在，但正被一個問題侵蝕：當理解越來越強，感覺還值多少錢？

這場道統之爭，在視頻領域同樣在上演：但有趣的是，陣營換了位置。

▌sora：openai的擴散模型視頻

前幾天被宣判死刑的sora採用的是dit（diffusion transformer）架構：擴散模型與transformer的結合體。

它的核心思路是：把視頻壓縮成時空patch（時空塊），在潛空間（latent space）里做擴散去噪，最終還原出視頻。sora曾經的優勢是長視頻、複雜場景、物理真實感，能生成超過1分鐘的連貫視頻，場景切換自然，物理規律遵循較好。但它訪問受限、價格昂貴，且生成速度較慢。

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

▌seedance2.0：bytedance的多模態擴散

seedance2.0，大概率基於dit擴散架構，但在此基礎上做了一個關鍵突破：統一多模態音視頻聯合生成架構。

它支持同時輸入最多15路混合模態：9張圖像+3段視頻+3段音頻+自然語言，一次性生成帶有同步音效的視頻。

更重要的是它的兩個核心能力：

•identity locking（身份鎖定）：

通過"reference cluster（參考簇）"機制，將角色的面部特徵、服裝紋理綁定到生成輸出，在角色運動過程中保持視覺一致性。

•物理模擬：

能生成雙人花樣滑冰的高難度動作序列，冰屑飛濺、服裝隨動、光影折射，嚴格遵循真實物理規律。

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

▌兩者核心差異對比

從Image2到Midjourney，一場血腥的技術哲學道統之爭 - 天天要聞

有意思的是：在圖像領域，openai用自回歸顛覆了擴散模型的統治；在視頻領域，雙方都在用擴散模型競爭，差異在於多模態融合的深度和商業化的速度。

未來在哪裡？

擴散模型和自回歸模型的道統之爭還遠沒有結束，他們之間的戰場已經悄悄延伸到了下一世代：

📌生圖：自回歸將繼續蠶食擴散模型的領地

gpt image2已經證明，自回歸架構在精確控制、文字渲染、指令遵循上有結構性優勢。隨著推理速度的提升和模型壓縮技術的成熟，自回歸生圖的速度劣勢會逐步縮小。

未來的生圖模型，很可能走向混合架構，用自回歸做語義規劃和布局，用擴散模型做細節渲染和美學優化，取兩者之長。

📌生視頻：擴散模型短期仍是主流，但自回歸化是趨勢

視頻生成的核心難題是時序一致性——相鄰幀之間的連貫性，擴散模型在這方面有天然優勢。但隨著自回歸模型處理更長序列的能力增強，"把視頻token化"的路線也在探索中。

openai已經在嘗試用統一的自回歸架構同時處理圖像和視頻token。這意味著未來可能出現一個模型，從同一個prompt直接輸出靜圖、gif、短視頻，由用戶選擇格式。

📌最終形態：多模態世界模型

無論擴散還是自回歸，兩條路最終都在走向同一個目標：

💡一個能夠理解、創作、編輯整個視覺世界的多模態世界模型。

圖像是它的一個輸出切面，視頻是另一個，3d場景、ar內容將是下一個。

當這一天到來，生圖工具和生視頻工具的分可能就會消失。

歷史

史上第八次黑七奇蹟！費城搶7大戰險勝綠軍大帝34+12造1-3大翻盤 - 天天要聞

史上第八次黑七奇蹟！費城搶7大戰險勝綠軍大帝34+12造1-3大翻盤

北京時間5月3日，NBA季後賽首場搶七，費城76人（東部第七）客場以109-100擊敗波士頓凱爾特人（東部第二），大比分4-3晉級次輪，他們下一輪將戰尼克斯。費城此役一度領先18分在末節被縮小到1分....

05月03日 6169

從1952到2026：跌宕百年征程落幕銅牌，印度男羽湯姆斯杯之路回顧 - 天天要聞

從1952到2026：跌宕百年征程落幕銅牌，印度男羽湯姆斯杯之路回顧

作為世界男子羽毛球團體最高榮譽，湯姆斯杯自1948-49賽季首次創辦以來，見證了無數羽壇強隊的崛起與沉浮。賽事最初為三年一屆，自1982年起改為每兩年舉辦一次，而印度男子羽毛球隊從1952年首次參賽....

05月03日 4007

探展日誌｜西漢錯金銅豹「亮點」在眼珠 - 天天要聞

探展日誌｜西漢錯金銅豹「亮點」在眼珠

「飾文煥彩——河北古代藝術珍品展」■展期：至5月12日■地點：中國美術館19、20、21號廳■票價：免費一件西漢錯金銅豹小巧玲瓏，卻造型生動，裝飾華麗，堪比一件「高級珠寶」。豹作蜷卧狀，昂首張口，長尾彎卷。身軀用金銀錯出梅花狀豹斑，頭、足和尾部作點狀紋，口部塗朱。豹體內灌鉛以增穩重，可作鎮席、鎮紙之用。這件...

05月03日 1967

就這還日乒男隊歷史最強？松島張本遭邱黨一人碾壓日媒：慘烈開門黑 - 天天要聞

就這還日乒男隊歷史最強？松島張本遭邱黨一人碾壓日媒：慘烈開門黑

2026年倫敦世乒賽，日本隊首戰2-3不敵德國隊迎來開門紅，這場比賽岸川教練派出了：張本智和、松島輝空、戶上隼輔的最強陣容，沒想到張本智和、松島輝空兩員核心大將接連失利，而且他們還都敗在29歲的邱黨....

05月03日 7610

五代對契丹不落下風，為何到宋朝就不行了？關鍵在「胡化」二字 - 天天要聞

五代對契丹不落下風，為何到宋朝就不行了？關鍵在「胡化」二字

公元945年，契丹皇帝耶律德光被困陽城，倉皇逃命，最後騎著一頭駱駝跑路。三十四年後，宋太宗趙光義在高粱河被契丹人射中大腿，爬上一輛驢車向南狂奔。同一個對手，前者是中原軍隊追著打，後者是被人追著跑。三十年，發生了什麼？

05月03日 1925

美伊戰事60天期限屆滿，特朗普宣稱美伊戰事「結束」出於哪些考量 - 天天要聞

美伊戰事60天期限屆滿，特朗普宣稱美伊戰事「結束」出於哪些考量

5月1日，美國總統特朗普未經國會授權動用軍事力量的「60天期限」屆滿。當天，特朗普致函國會，稱美國與伊朗的敵對行動已「結束」，白宮無需尋求國會授權。但特朗普在面對記者時說漏了嘴，稱自己在信函中刻意迴避「戰爭」表述，實則明了相關行動「本應獲得批准」。特朗普規避國會授權主要出於哪些考量？此做法是否為美方騰出...

05月02日 2559

趙少康拉朱立倫盧秀燕下水？蔣萬安被逼表態軍購案？不簡單 - 天天要聞

趙少康拉朱立倫盧秀燕下水？蔣萬安被逼表態軍購案？不簡單

當前，國民黨內部，「開除韓國瑜」風暴持續發酵，因為國民黨不處分季麟連，趙少康持續施壓鄭麗文，甚至直接針對鄭麗文，已經有點兒挑戰國民黨中央的意味。就在這個時候，面對鄭麗文的回擊，質疑趙少康跳得太高，趙少康開始急踩剎車了，甚至想拉朱立倫盧秀燕下

05月02日 1092

古代讓人頭痛的「匈奴」，是如今的哪個民族？為什麼都銷聲匿跡了 - 天天要聞

古代讓人頭痛的「匈奴」，是如今的哪個民族？為什麼都銷聲匿跡了

匈奴這個名字，在中國歷史上是真正意義上的"讓人頭痛"——不是比喻，是字面意思。他們打得漢朝皇帝親自被困在山上七天七夜，打得長城沿線的將領年年提心弔膽。這麼一支橫行了幾百年的游牧帝國，後來突然就"沒了"。那批人去哪兒了？是真的消失了，還是換了

05月02日 1787

呂媭：呂后的妹妹，看破呂氏死局，卻終究沒能逃過滅族之禍 - 天天要聞

呂媭：呂后的妹妹，看破呂氏死局，卻終究沒能逃過滅族之禍

前180年，長安城裡剛辦完呂后的喪事，呂家已經站在懸崖邊。呂祿聽信酈寄勸說，竟把北軍兵權交了出去，還準備外出遊獵。姑姑呂媭一聽，極為憤怒，指責他身為將軍卻離軍遊獵，並把珠寶玉器全扔到堂下，意思很明白：別替別人守財了。可她看破了呂氏死局，卻終

05月02日 1401

王曾：連中三元的狀元宰相，一生低調，一心為公 - 天天要聞

王曾：連中三元的狀元宰相，一生低調，一心為公

1002年，北宋京城開封，一個來自青州的年輕人王曾，把科舉考場幾乎「刷通關」了：解試第一、省試第一、殿試第一，連中三元。換成別人，恨不得敲鑼打鼓告訴全天下；王曾卻給叔父寫信說，別太高興，我只是祖上積德。這麼低調的人，後來為何能兩度拜相，又為

05月02日 1266