多模態=AGI入場券？階躍星辰姜大昕：死磕基座大模型，探索多模態理解生成一體化

2025年05月10日15:10:22 遊戲 6224

衡宇發自凹非寺
量子位 | 公眾號 qbitai

當大模型賽道中不少玩家明確表示放棄基礎大模型研發，心思放在更聚焦的方向上時，階躍星辰站出來——就像這家公司第一次亮相時那樣，給外界一個明確的回答：

我們會堅持基礎大模型研發。

創始人兼ceo姜大昕解釋了背後邏輯。

一方面，大模型行業的趨勢技術發展還是在非常陡峭的區間。他也很感慨ai行業發展瞬息萬變，「去年大家覺得gpt-4很牛，今天他都快下架了」，等到明年看今年的技術，同樣會覺得微不足道。

姜大昕說，階躍不想在這個過程中放棄主流增長或前進的趨勢，所以還是會堅持做基礎模型的研發。

另一方面，從應用的角度來看，階躍仍然相信應用和模型是相輔相成的。

「模型可以決定應用的上限，應用給模型提供具體的應用場景和數據。」姜大昕表示，雖然階躍的產品形態隨着模型的演變是動態發展的，但這樣的邏輯關係還是一直保持下去的。

確實如他所說，在過去的一年裡，階躍星辰旗下產品從命名、布局和形態上都發生了轉變。

主打的c端助手app，由「躍問」改名為「階躍ai」，意味着它從類chatgpt產品到agent的轉變；產品重點形態從用戶普遍直接使用的手機app變成了端雲一體agent平台。

「雖然我們的智能終端agent和頭部企業合作，但總體而言，階躍的產品最終是服務c端的。」姜大昕表示，「不管作為助手類也好、內容類也好，都有非常大的機會。」

大模型領域的兩條顯著趨勢

姜大昕同時強調，模型的突破是早於商業化的。就拿openai來說，是先有了gpt-3.5，才有了chatgpt。

因此，在基座模型上面繼續投入以追求智能的上限，仍然是當下最重要的一件事。

要怎麼去不停觸碰智能的邊界or天花板？不如先來看看這個領域裏最前沿的趨勢有哪些。

姜大昕復盤道，趨勢共有如下兩條：

一條是「模仿學習到強化學習」，另一條是「從多模態融合走向了多模態理解生成一體化」。

從模仿學習到強化學習的技術演進大家已經非常熟悉， openai的o1、o3，以及deepseek-r1背後採用的都是強化學習技術，也是現在大模型玩家爭先恐後着重投入的方向。

第二條趨勢則關乎多模態。

姜大昕再次提到了那句他在多個場合不停重複提及的話：多模態是實現agi的必經之路。

無論是從人類智能的多元化角度（符號智能、視覺智能、空間智能等），還是從垂直領域ai應用需求來說，大模型的多模態能力都必不可少。

在這樣的認知指導下，階躍星辰在研發基座模型時採取了散彈式打法：

成立兩年，公司累計發佈22款基座模型，覆蓋文字、語音、圖像、視頻、音樂、推理等系列。

其中有16款是多模態模型，佔據總數七成；這些多模態模型又分屬圖像理解、視頻理解、圖像生成、視頻生成、圖像編輯、音樂生成、多模態推理等方向。

業界公認階躍是多模態卷王，也不是沒有道理。

多模態理解生成一體化才是未來

至於如何追求智能的上限，階躍目前行進的路線與第一次公開亮相時所講的那樣一般無二，即「單模態——多模態——多模態理解和生成的統一——世界模型——agi」。

姜大昕重點解釋了關於「多模態理解生成一體化」的部分。

它意味着多模態模型的理解和生成用一個模型來完成，而不是「視頻/圖像/語言轉文本——文本理解與生成——生成結果轉視頻/圖像/語音」的三段式過程。

大語言模型的理解生成一體化，已經有類gpt實現統一；然而在視覺領域並不如此，人們往往在理解視覺內容時選擇一個模型，在生成內容時調用另一個模型。

這並不是一個可以直接從語言模型的ntp（next-token-prediction）直接遷移到視覺模型的nfp（next-frame-prediction）的簡單事。

語言文本模態是低維度離散分佈的，而視覺模態是高維度連續分佈，這也就是說後者在進行訓練學習時，複雜性更高。

從技術角度來看，視覺領域的內容生成需要理解來控制——如果想保證生成內容有意義、有價值，實際上需要對視覺的「上下文」作出更好的理解。

反言之，理解需要生成來監督。姜大昕解釋說，就是「只有生成了的時候才是真正的理解了」。

現在，視覺領域還沒有出現自己的transformer架構，階躍就是想做出一個視覺領域的、生成一體化架構，並且是非常scalable的。

姜大昕分享道，gpt-4o可能已經實現了多模態理解生成一體化，而階躍的圖像編輯模型step1x-edit也初步實現了這一點。

之所以稱其為「初步」，是階躍覺得step1x-edit的效果依然有很大改進空間，還可以在架構上做進一步的優化，數據上也可以做進一步的打磨，讓它的效果變得更好一些。

但具體走哪條路線能精益求精，不管是階躍內部還是業界都沒有公認的真理。姜大昕表示，在這一方面，階躍內部多有條技術路線並行，因為確實哪一條路線都會有可能出現突破。

「一旦突破以後，今後的道路會更加順暢。」姜大昕稱。

one more thing

既然認可多模態理解生成一體化才是未來，為什麼階躍不把所有的精力集中在step-r1-v-mini這樣的多模態推理模型上，反而是要在各個模態上都發力呢？

量子位把這個問題拋給了姜大昕。

他很坦然，表示也想過做，但這行不通。

理解生成一體化是非常綜合素質的考驗。
首先要理解。如果語言模型不行就談不上理解，何況現在語言模型又進化到了推理模型，這塊不能省。
第二要做視覺推理。視覺推理是視覺理解的升級，所以要做視覺理解。
要做理解生成一體化還要有生成端，所以生成也必須做。

簡單點說，做理解生成一體化，必須自身具備非常強的綜合實力。

但姜大昕信心滿滿，「我們幾條線的能力都非常強，所以才可以組合起來去探索這個路徑」。

遊戲

凡是那些嘴巴甜、會來事、情商高的人，往往背後最會算計人

在人際交往的廣闊舞台上，我們總會遇見形形色色的人。有些人，一開口便如春風拂面，讓人倍感舒適；有些人，做事利落，令人心生敬佩。然而，真正能給人留下深刻且正面印象的，往往並非那些舌燦蓮花之人，而是那些心懷善意、行事坦蕩者。你會發現，那些說話甜得發膩的人，背後往往藏

06月03日 3973

只是史詩，卻不輸同時代傳說的三款皮膚，神威的大招完勝無雙飛將

大家好我是指尖，以前的史詩皮膚大家都覺得特效華麗，但那時候各品級皮膚之間並沒有拉開太大的差距導致，如今傳說和史詩皮膚之間有着非常明顯的特效差距，往上看那些珍品和無雙那就更別提了。實際上，....

06月03日 2292

這台迷你主機居然是桌面超算中心，頂配版銳龍AI MAX+ 395主機測評

GMK極摩客EVO-X2 桌面AI超算中心硬件配置銳龍AI MAX+ 395/128GB/2TB參考價格：15799元（京東活動到手價14999元）AMD在今年CES大會上發佈了代號Strix Halo的銳龍AI MAX系列處理器，其中的旗艦銳龍AI MAX+ 395擁有基於Zen5架構的16核32線程規格，並內置了擁有40個CU、RDNA 3.5架構的史上

06月03日 4162

雷克沙杯蘭州站巔峰對決，技嘉AORUS硬核裝備賦能電競夢想

5月30日，蘭州大學城關校區國錩報告廳，年輕電競學子們迎來了2025雷克沙杯高校電競賽春季賽最後一張全國賽入場券的激烈爭奪。以技嘉AORUS電競裝備為核心配置的3A遊戲平為選手以及觀賽學子給予穩定流暢的遊戲支持，年輕活力與硬核科技交融，共同為這份電競熱情打call！技嘉AORUS電競裝備為年輕夢想裝上強勁引擎工欲善其事必...

06月03日 3096

新玩家難越家電紅海？方洪波斷言「戰略已輸」背後的產業真相

「誰現在進入家電業，戰略上已經輸了。」在美的集團2024年股東大會上，董事長方洪波面對投資者追問時，拋出了自己的犀利觀點。不過，釘科技注意到，新玩家似乎正在進入新的舒適區，一季度小米大家電收入猛增1....

06月03日 5154

BLG敗人品操作被實錘！冠軍打野粉絲集體舉報，BIN賽後發文引熱議

TES輸比賽是運營問題 BLG作為LPL公認最強戰隊，BLG能否晉級MSI，成為全球焦點話題，尤其是G2戰隊，就多次公開發文喊話BLG，希望BLG能夠代表LPL晉級MSI。BLG也沒有讓粉....

06月03日 4647

AG7連決賽4連冠，狼隊10冠，哪個記錄更難打破？AG一年就能反超狼隊！

2025年KPL夏季賽很快就要開賽了，按照目前公布的18支戰隊的大名單來看，夏季賽AG超玩會依舊是冠軍的最熱門！這段時間，有不少網友在討論，AG超玩會連續七次晉級決賽，並且完成了KPL歷史上的首次四....

06月03日 4652

魔獸世界：一件來自WLK的遠古玩具，讓玩家的DPS提高了10%

魔獸世界今年以來出現了一個讓人難受的BUG，有玩家在社交媒體報告，不少人出現了一個讓人非常惱火的情況，那就是「輸入延遲」問題。遇到這種問題的玩家會造成GCD提高導致DPS降低。而近日有外服玩家在官方之前找到了解決問題的辦法，僅僅依靠一個WLK時代的變身玩具。來自Reddit玩家的分享，自從「地心之戰」發佈以來，就有很...

06月03日 1648

鷹角為什麼要做一個和自己對着乾的遊戲？

怪物馬戲團 | 文為什麼鷹角要做個《泡姆泡姆》這樣的遊戲？這問題其實已經困擾我很久了，因為它看起來和鷹角的其他遊戲，風格相差十萬八千里。上周，在《泡姆泡姆》發售前，我去鷹角試玩了一天。試玩氛圍讓我有種好笑的割裂感，因為鷹角的裝修在我看來真有種「這片大地」的質感，像穿越到了方舟的宿舍，讓我自動開啟危機合...

06月02日 6363

《刺客信條》爆料人自信滿滿：爆料保真時間會證明！

自稱是育碧合作夥伴的「BunnyTheVillain」透露，《刺客信條：代號Hexe》「將帶有一種陰暗、令人毛骨悚然的基調。故事始於女主角Elsa為母親的復仇，她的母親在女巫審判中被判處女巫的罪名而遭到處決。」此前她也曾透露，在詢問了《刺客信條：HEXE》開發人員後得到回應：「這是一款與該系列其他遊戲完全不同的作品，如果你膽...

06月02日 3847