全模態世界模型這條路，誰會先跑出來？

2026年04月29日20:50:27 動漫 5117

該圖片疑似使用了ai生成技術，請謹慎甄別

從deepmind到阿里騰訊，各路玩家湧入世界模型。但背後最終爭奪的不只是算力與資源，而是什麼架構能真正構建物理世界。

文｜周享玥趙艷秋

編｜牛慧

過去18個月，世界模型正成為ai領域競爭密度快速升高的新戰場。參與者從全球科技巨頭、視頻生成公司、機器人公司、遊戲引擎廠商，到自動駕駛企業，幾乎無一缺席。

海外，deepmind發布genie 2，通過生成下一幀預測為具身智能創建訓練場；英偉達有cosmos世界模型；李飛飛創立的world labs估值已達50億美元；圖靈獎得主楊立昆也攜10.3億美元重金創業，專攻世界模型；國內，小鵬汽車上線x-world，智元機器人等也相繼發布自研世界模型；4月，阿里、騰訊更是在48小時內先後下場，位元組蓄勢卡位，世界模型正式進入戰略必爭序列。

世界模型是具身智能與機器人落地的底層前提，是遊戲、工業模擬、數字孿生下一代形態的入口，更是ai從聊天走向「行動與造物」的分水嶺。誰先建立對物理世界的完整建模能力，誰就可能掌握下一代ai的話語權。當下，其在內容生成、影視特效、遊戲開發、工業模擬等領域已顯露出實際商業價值。

但熱鬧背後，一個基礎問題懸而未決：世界模型到底是什麼？

世界模型，ai下一個「必爭之地」

實際上，今天宣稱自己在做「世界模型」的公司，超過一半可能根本沒做世界模型——因為行業至今沒有統一定義，十位專家可能有十種說法。

當下主流探索主要分為三條路線：一，狀態預測路線，以楊立昆為代表，構建顯式狀態空間，讓模型學會預測下一個世界狀態，路線偏向具身智能，強調對物理規律的先驗建模。二，3d交互路線，以李飛飛及google為代表，致力於構建可交互的三維世界形態。三，從視頻生成出發的路線。很多對世界的理解，可以從大規模數據中直接湧現，不一定要預先構建顯式狀態空間，也不一定完全依賴強先驗知識。

但三條路線都沒能回答一個問題：雖然能生成逼真畫面，但如何真正理解物理世界並做出精準的行動決策？

尤其在具身智能場景，機器人要精準判斷物體材質、抓取力度，微操作偏差一毫米就能給生產造成巨大損失。比如狀態預測路線，本質是統計建模，一旦遇到新工廠、新家居長尾變化，統計規律迅速失效；3d交互路線，雖能還原視覺空間，卻無法推導出摩擦力、接觸力等執行層面的物理量；視頻生成路線是追求下一幀像素是否逼真，而非動作序列是否有效。

這些問題暴露出一個共同缺口：用單一或有限模態，無法完整描述一個全模態的物理世界。語言描述不了摩擦係數，視頻捕捉不了力反饋。

「目前所有主流模型架構，都不能支撐將來真正的世界模型，所以必須做架構創新。」智象未來創始人兼ceo梅濤說。在眾多路線的爭議中，智象未來的判斷是：真正的世界模型必須是全模態的，能夠任意輸入、任意輸出，與物理世界打通。下一代模型架構競爭的關鍵，不是單一模態能力的疊加，而是要從多模態走向全模態，以原生統一架構，對物理世界進行原生、全模態的統一建模。

基於這一判斷，2026年4月，智象未來正式發布了新一代原生全模態世界模型架構及圖像大模型 hidream-o1-image，採用全球首創的uit架構，這標誌著智象未來進一步明晰了從視覺生成的多模態大模型走向原生全模態世界模型的技術方向路線。

作為該架構落地的首個重磅產品，圖像大模型hidream-o1-image的閉源版本參數達到千億級別，在六項業界標準benchmark中達到sota，超越了google的nano banana 2、gpt image 1等主流模型；同時發布的還有8b開源版本，適配本地部署和低代碼智能體調用場景。

智象未來聯合創始人兼cto姚霆解釋稱，選擇先以圖像大模型為切入點，是因為「圖像是世界建模的空間基底，定格了現實世界瞬時時刻的完整狀態信息」。在他看來，圖像不是獨立於視頻之外的單點能力，而是視頻生成乃至通向原生全模態世界模型的關鍵入口。

從技術側看，當前視頻生成鏈路中，80%到90%的問題根源在前端圖像階段——圖像沒做好，視頻一定做不好。從成本側考慮，圖像也是最適合進行scale up的切入點。在智象未來的實踐中，先以圖片模型驗證架構可行性，再將架構遷移至視頻模型，可將訓練成本控制在行業平均水平的1/5到1/10。在uit原生統一架構下，圖像與視頻訓練也能夠協同進行、相互增強，從而為模型進一步走向全模態奠定基礎。

在全球技術版圖中，智象未來與world labs，pika labs、physical intelligence分屬不同技術路徑。

pika以視頻生成為核心產品方向，智象未來的目標指向全模態世界模型。world labs更強調空間建模與空間智能，智象未來並不錨定於空間這一單一維度，而是在架構層面尋求全模態能力的原生統一。physical intelligence的切入點是機器人控制與動作智能，智象未來在現階段並未從具身控制端直接進入，而是優先構建統一的生成式底座，以此打通對物理世界的表達、理解與重構能力。某種意義上，它更接近中國世界模型版圖中一個重要的生成式能力方案。

十年視覺，專註架構創新

在通往全模態世界模型這條賽道上，不少玩家是在資本熱潮中入場的。智象未來進入這個領域的時間更早。

2017年，這支團隊的核心力量還在微軟亞洲研究院時，梅濤已帶領團隊提出tgans-c，是全球最早的「文本生成視頻」模型之一。彼時距離sora問世還有整整七年。當年那篇論文的作者，今天全部都在智象承擔核心基模研發工作。在視覺生成這條技術線上，他們積累已有十多年。

從微軟離開後，團隊加入京東，將視覺能力相繼落地於京東商城app上的拍照購「以圖搜圖」功能，以及物流倉里的智能機械臂等產品。面對京東超1000萬自營sku中從易碎品到異形件的複雜品類，該機械臂系統實現了毫秒級視覺識別與動作預測，精準識別並抓取超過10萬種不同商品，單台設備分揀效率達到約510件/小時，且7×24小時穩態運營。

團隊由此積累了視覺能力在工業場景中落地的經驗，也開始意識到這套能力的邊界與上限。

2023年，chatgpt引爆大模型浪潮，midjourney讓圖像生成第一次大規模進入大眾視野，團隊判斷這一方向有「更大場景的可能性」，智象未來成立。

從2023年創立至今，智象未來在模型架構上保持極快的更新迭代，基本形成一年一代的演進節奏。作為國內最早布局多模態大模型的團隊之一，智象發布了基於 dit 架構的產品vivago.ai，並在全球首次推出全新的「擴散自回歸」（diffusion + ar）模型架構。相較於單一生成路徑，這一範式更強調性能與效率的平衡，在生成質量、時序一致性和可控性上持續突破行業標準。其背後，體現的是智象核心技術團隊對模型底層架構創新的長期堅持：每一次更新都不是在原有架構上簡單的增量優化，而是對底層邏輯的創新。

團隊認為，有時候的確要做一些難而正確的事。而在幾個關鍵技術節點上，他們認為都抓住了突破口，在某些時間節點比同類方案早3到6個月。這不是所有團隊都能跨越的門檻。

為何持續押注架構創新？梅濤給出了一個分析判斷：創業公司沒有大廠的生態優勢和算力資源，所以不應簡單地走跟隨路徑，而是找到世界模型關鍵節點，尋求獨特創新，智象未來結合自身技術優勢，聚焦底層模型架構，從圖片生成模型、視頻生成模型，轉向原生全模態世界模型架構，通過模型架構創新提高性能天花板，用更少的成本跑出更高的上限。

要理解這次原生全模態架構升級的意義，需要先了解dit的內在局限。

傳統dit的做法是文字、圖片、視頻、動作各自獨立編碼，然後在隱空間里交互，再解碼輸出。多個模態分別編碼、壓縮、拼接，存在信息損失，這被認為是當前圖像、視頻生成中精度損耗與輸出不可控的原因之一。

智象uit架構的核心改變是：將文字、圖片、視頻、動作等的token，以更接近原始信號的形式直接進入統一模型，實現原生全模態的統一編碼與處理，使模型第一次具備跨模態的「連續理解能力」，而不是簡單的模態對齊。梅濤強調「不是今天有一個模型就能自然做成世界模型，世界模型必須是一個原生全模態架構的問題」。

架構的持續創新之外，梅濤還給出了一套判斷標準——用來區分真正的世界模型與視覺模擬器，包含三要素：

第一，原生全模態表達——能夠表達全世界所有模態的信息，包括視覺信息、動作信息、感測器信息、天氣信息等等，而不只是某一類模態；第二，推演能力——能夠結合物理規律、因果關係去做可驗證的推理，而不只是生成看起來合理的畫面；第三，構造世界的能力——不只是model the world，而是mold the world，能夠構造和重塑世界，而不只是描述理解它。

簡言之，要具備表達世界、推演世界、構造世界的能力。

hidream-o1是智象向這三個方向邁出的第一步。它標誌著智象開始從以視覺生成為主的產品形態，向面向物理世界建模的方向轉型。梅濤沒有迴避這一步的階段性，「它是我們在不斷探索前沿技術過程中的一個階段性認知。如果你想做世界模型，就一定要不斷推動底層技術往前走」。

而就在hidream-o1發布不久前，智象未來還與諾亦騰機器人宣布戰略合作，通過「真實數據+生成式視頻數據」的融合範式，共建高精度、規模化具身視頻數據，把技術能力扎進了具體工程場景中。

具身智能的發展需要高質量多模態數據，但傳統採集方式成本高、效率低，穿戴式動捕設備還容易對人體形態、遮擋關係產生干擾，形成明顯的「vision gap」（視覺鴻溝）。智象未來與諾亦騰要填上這道溝。諾亦騰用高精度動捕設備採集真實物理反饋數據，智象未來則負責將這些原始感測數據進行百倍以上精細化放大，預計年內將共同產出數萬小時高質量具身智能視頻訓練數據。

普通通用視頻生成模型往往以視覺效果為導向，容易出現內容幻覺或物理邏輯矛盾的問題。而智象未來的自研模型則能基於動捕數據進行高可控的生成式優化——既能確保每幀視頻與底層操作數據精準匹配，又能極大豐富場景、光影及人體形態的複雜度，從而更貼合具身智能企業的高精度訓練需求。

這種質變，劃定了智象未來的戰略分水嶺：如果只停留在更高質量的視頻生成層面，本質上仍是在aigc工具賽道內競爭；而更進一步打通原生全模態架構、真實動作數據、交互視頻以及生命科學等更複雜場景，它很有可能在中國世界模型生態中佔據更靠近底層的關鍵位置。

1+1+3：從模型架構創新到商業閉環

世界模型的架構迭代明確之後，下一個問題是：如何轉化為可執行的商業？

智象未來在內部構建起了一個「1+1+3」業務架構：以1個hidream系列原生全模態大模型為底座，1個hiharness-token hub平台提供標準化模型能力輸出，在此之上初步延伸出三大場景應用。

其中，hiharness-token hub平台是今年技術上的第一優先順序。它在底座與產品之間，承擔統一調度與能力編排的職能。這層中台彙集了模型能力、api能力、行業know-how與skill編排能力，同時集成第三方與開源模型。現已對外開放300+api，接入100+ka客戶，累計調用次數超30億次，支持訂閱制、行業定製及私有化maas服務。

「3」，則是圍繞三大核心場景的aigc產品線：

在aigc社媒創作領域，面向專業創作者（opc），打造一站式ai agent創作工具vivago.ai，通過自研3d video模型與推理加速，將特效生成提速至秒級，已覆蓋全球超3000萬專業用戶。其中80%為海外用戶，今年一季度單月新增用戶就超過千萬。

在aigc商業營銷領域，構建線上跨境電商短視頻營銷與線下營銷的一體化產品能力。線上，hiburst平台解決商家營銷創意不足、素材生產效率低、跨平台適配成本高等難題，已成為tiktok前五大ai合作夥伴；線下，軟硬體一體智能營銷終端hidreamfans已服務全國超萬家實體店鋪，今年一季度銷售已超去年全年。

在aigc影視創作領域，發布全球首個專業級ai影視創作協作智能體——「幀贊」，以電影級畫質生成和「創意-分鏡-成片」全流程打通為核心能力。目前智象已累計製作短漫劇超過5000分鐘。採用幀贊作為ai技術支持的奇幻懸疑ai模擬人短劇《秦嶺青銅詭事錄》上線僅12小時，就很快上升至騰訊視頻豎屏熱播榜第一，成為2026年ai短劇賽道標誌性爆款。

一些新的業務線也在快速起勢。除了之前提到在具身智能賽道的拓展，智象已與百圖生科（biomap）深度協同共建微觀世界模型，用於分子動力學理解，賦能生物醫藥創新。

這一布局是智象未來「全模態世界模型」底座能力的自然外溢。行業人士觀察，很多具身智能公司低估了一件事：沒有強視頻底座，很難走遠。而隨著模型能力的升級，智象未來生成的視頻精度已達毫米級，完全能滿足具身智能訓練大模型時對監控和標註的要求。梅濤進一步預測，未來，得益於在數百萬小時視頻數據上學到的規律，「如果要做一個端到端的具身智能模型，我們需要的數據小時數，可能只是一些公司的十分之一，甚至百分之一。」

從商業營銷、社媒和影視創作，到具身智能，智象未來「3」的業務邊界還在不斷延展，而這最終都指向了這家公司對自身長期競爭力的深層思考：模型創新力、產品迭代力、商業生態力。三層之間相互依賴，任何一層單獨成立，都不足以支撐一家長期創新的大模型技術創新公司。

從單一視覺到多模態，再到全模態統一表徵，這不僅是世界模型進化的必經之路，更是通往agi的關鍵里程碑。當行業逐漸達成共識——掌握全模態能力即掌握下一代智能的鑰匙時，這場關於「物理世界建模」的終極命題，才剛剛拉開序幕。