從Image2到Midjourney,一場血腥的技術哲學道統之爭

2026年04月29日08:00:23 歷史 7743
從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞



生圖標準,正在被重寫



作者| 大先生

用image2幾天後

我突然想到midjourney怎樣了?


ai生圖圈一直以來都有個都市傳說:


💡新模型三天降智,五天沒熱度

然後大家回到原來的工作流,該用啥用啥


image2不一樣,用了幾天之後,我意識ai生圖的價值判斷標準開始變了。


image2帶來的衝擊不只在於「它也能畫得好看」,而在於它把過去ai生圖裡最難受的幾個問題,文字、局部修改、連續編輯、複雜指令執行、空間判斷,做到了像素級別的可控性。


可控性在工作中,向來珍貴。


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞

提示詞:女生位置向前移一步,在她身後增加光源,勾勒微光剪影,女生的額頭的頭髮減少幾根


然後,我腦子裡突然冒出一個問題:


💡曾經的王者midjourney現在怎麼樣了?


midjourney不死只是凋零


如果你和我一樣是2022、2023年入坑ai生圖的人,midjourney幾乎是你的第一站。


那種獨特的、帶著油畫質感的美學風格,讓無數人第一次感受到ai也能創作。它的商業模式也跑通了:純靠訂閱制,沒有外部融資,david holz帶著一個小團隊,做到了年收入過億美元的規模。


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞

相同提示詞下,左:midjourney7右:image2


💡midjourney依然在美學上體現個性

image2能精準給出了文字信息


2022年2025年midjourney無論營收還是技術上,都是王者。

但在2025年之後,midjourney的處境就開始變得微妙:


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞


直到image2出現,把靈感抽卡,向精確生產推進了一大步。這背後,其實是一場技術哲學道統之爭。


道統之爭:擴散模型vs自回歸模型


▌擴散模型:從混沌中召喚秩序


從雜訊出發,一步步去噪,把秩序從虛無中鑿出來。這套邏輯讓擴散模型天生是美學動物,光影、構圖、色彩自然協調,給它一個模糊意象,它還你一幅有靈魂的畫。midjourney、sora、veo、seedance,所有叫得出名字的頂級模型,清一色是這個門派的信徒,統治ai視覺生成整整五年。


但正統有正統的原罪:文字是它永遠無法癒合的傷口。這不是訓練不夠,是架構層面的基因缺陷,打多少補丁都治不好根。


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞


▌自回歸模型:用理解來作畫


gpt image2把圖像當成一種語言,像寫文章一樣一個token一個token地畫出來。於是文字變成母語、gpt-4o的整個大腦直接參与作畫、局部修改精準如手術刀。


它有"想"這個動作,擴散模型只有"感覺"。


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞


擴散模型證明了機器可以有審美,自回歸模型證明了機器可以有理解。midjourney的美學護城河還在,但正被一個問題侵蝕:當理解越來越強,感覺還值多少錢?


這場道統之爭,在視頻領域同樣在上演:但有趣的是,陣營換了位置。


▌sora:openai的擴散模型視頻


前幾天被宣判死刑的sora採用的是dit(diffusion transformer)架構:擴散模型與transformer的結合體。


它的核心思路是:把視頻壓縮成時空patch(時空塊),在潛空間(latent space)里做擴散去噪,最終還原出視頻。sora曾經的優勢是長視頻、複雜場景、物理真實感,能生成超過1分鐘的連貫視頻,場景切換自然,物理規律遵循較好。但它訪問受限、價格昂貴,且生成速度較慢。


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞


▌seedance2.0:bytedance的多模態擴散


seedance2.0,大概率基於dit擴散架構,但在此基礎上做了一個關鍵突破:統一多模態音視頻聯合生成架構


它支持同時輸入最多15路混合模態:9張圖像+3段視頻+3段音頻+自然語言,一次性生成帶有同步音效的視頻。


更重要的是它的兩個核心能力:

•identity locking(身份鎖定):

通過"reference cluster(參考簇)"機制,將角色的面部特徵、服裝紋理綁定到生成輸出,在角色運動過程中保持視覺一致性。

•物理模擬:

能生成雙人花樣滑冰的高難度動作序列,冰屑飛濺、服裝隨動、光影折射,嚴格遵循真實物理規律。


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞


▌兩者核心差異對比


從Image2到Midjourney,一場血腥的技術哲學道統之爭 - 天天要聞


有意思的是:在圖像領域,openai用自回歸顛覆了擴散模型的統治;在視頻領域,雙方都在用擴散模型競爭,差異在於多模態融合的深度和商業化的速度。


未來在哪裡?


擴散模型和自回歸模型的道統之爭還遠沒有結束,他們之間的戰場已經悄悄延伸到了下一世代:


📌生圖:自回歸將繼續蠶食擴散模型的領地


gpt image2已經證明,自回歸架構在精確控制、文字渲染、指令遵循上有結構性優勢。隨著推理速度的提升和模型壓縮技術的成熟,自回歸生圖的速度劣勢會逐步縮小。


未來的生圖模型,很可能走向混合架構,用自回歸做語義規劃和布局,用擴散模型做細節渲染和美學優化,取兩者之長。


📌生視頻:擴散模型短期仍是主流,但自回歸化是趨勢


視頻生成的核心難題是時序一致性——相鄰幀之間的連貫性,擴散模型在這方面有天然優勢。但隨著自回歸模型處理更長序列的能力增強,"把視頻token化"的路線也在探索中。


openai已經在嘗試用統一的自回歸架構同時處理圖像和視頻token。這意味著未來可能出現一個模型,從同一個prompt直接輸出靜圖、gif、短視頻,由用戶選擇格式。


📌最終形態:多模態世界模型


無論擴散還是自回歸,兩條路最終都在走向同一個目標:


💡一個能夠理解、創作、編輯整個視覺世界的多模態世界模型。

圖像是它的一個輸出切面,視頻是另一個,3d場景、ar內容將是下一個。


當這一天到來,生圖工具和生視頻工具的分可能就會消失。

歷史分類資訊推薦

探展日誌|西漢錯金銅豹「亮點」在眼珠 - 天天要聞

探展日誌|西漢錯金銅豹「亮點」在眼珠

「飾文煥彩——河北古代藝術珍品展」■展期:至5月12日■地點:中國美術館19、20、21號廳■票價:免費一件西漢錯金銅豹小巧玲瓏,卻造型生動,裝飾華麗,堪比一件「高級珠寶」。豹作蜷卧狀,昂首張口,長尾彎卷。身軀用金銀錯出梅花狀豹斑,頭、足和尾部作點狀紋,口部塗朱。豹體內灌鉛以增穩重,可作鎮席、鎮紙之用。這件...
美伊戰事60天期限屆滿,特朗普宣稱美伊戰事「結束」出於哪些考量 - 天天要聞

美伊戰事60天期限屆滿,特朗普宣稱美伊戰事「結束」出於哪些考量

5月1日,美國總統特朗普未經國會授權動用軍事力量的「60天期限」屆滿。當天,特朗普致函國會,稱美國與伊朗的敵對行動已「結束」,白宮無需尋求國會授權。但特朗普在面對記者時說漏了嘴,稱自己在信函中刻意迴避「戰爭」表述,實則明了相關行動「本應獲得批准」。特朗普規避國會授權主要出於哪些考量?此做法是否為美方騰出...
趙少康拉朱立倫盧秀燕下水?蔣萬安被逼表態軍購案?不簡單 - 天天要聞

趙少康拉朱立倫盧秀燕下水?蔣萬安被逼表態軍購案?不簡單

當前,國民黨內部,「開除韓國瑜」風暴持續發酵,因為國民黨不處分季麟連,趙少康持續施壓鄭麗文,甚至直接針對鄭麗文,已經有點兒挑戰國民黨中央的意味。就在這個時候,面對鄭麗文的回擊,質疑趙少康跳得太高,趙少康開始急踩剎車了,甚至想拉朱立倫盧秀燕下
呂媭:呂后的妹妹,看破呂氏死局,卻終究沒能逃過滅族之禍 - 天天要聞

呂媭:呂后的妹妹,看破呂氏死局,卻終究沒能逃過滅族之禍

前180年,長安城裡剛辦完呂后的喪事,呂家已經站在懸崖邊。呂祿聽信酈寄勸說,竟把北軍兵權交了出去,還準備外出遊獵。姑姑呂媭一聽,極為憤怒,指責他身為將軍卻離軍遊獵,並把珠寶玉器全扔到堂下,意思很明白:別替別人守財了。可她看破了呂氏死局,卻終
王曾:連中三元的狀元宰相,一生低調,一心為公 - 天天要聞

王曾:連中三元的狀元宰相,一生低調,一心為公

1002年,北宋京城開封,一個來自青州的年輕人王曾,把科舉考場幾乎「刷通關」了:解試第一、省試第一、殿試第一,連中三元。換成別人,恨不得敲鑼打鼓告訴全天下;王曾卻給叔父寫信說,別太高興,我只是祖上積德。這麼低調的人,後來為何能兩度拜相,又為