多模态=AGI入场券？阶跃星辰姜大昕：死磕基座大模型，探索多模态理解生成一体化

2025年05月10日15:10:22 游戏 6224

衡宇发自凹非寺
量子位 | 公众号 qbitai

当大模型赛道中不少玩家明确表示放弃基础大模型研发，心思放在更聚焦的方向上时，阶跃星辰站出来——就像这家公司第一次亮相时那样，给外界一个明确的回答：

我们会坚持基础大模型研发。

创始人兼ceo姜大昕解释了背后逻辑。

一方面，大模型行业的趋势技术发展还是在非常陡峭的区间。他也很感慨ai行业发展瞬息万变，“去年大家觉得gpt-4很牛，今天他都快下架了”，等到明年看今年的技术，同样会觉得微不足道。

姜大昕说，阶跃不想在这个过程中放弃主流增长或前进的趋势，所以还是会坚持做基础模型的研发。

另一方面，从应用的角度来看，阶跃仍然相信应用和模型是相辅相成的。

“模型可以决定应用的上限，应用给模型提供具体的应用场景和数据。”姜大昕表示，虽然阶跃的产品形态随着模型的演变是动态发展的，但这样的逻辑关系还是一直保持下去的。

确实如他所说，在过去的一年里，阶跃星辰旗下产品从命名、布局和形态上都发生了转变。

主打的c端助手app，由“跃问”改名为“阶跃ai”，意味着它从类chatgpt产品到agent的转变；产品重点形态从用户普遍直接使用的手机app变成了端云一体agent平台。

“虽然我们的智能终端agent和头部企业合作，但总体而言，阶跃的产品最终是服务c端的。”姜大昕表示，“不管作为助手类也好、内容类也好，都有非常大的机会。”

大模型领域的两条显著趋势

姜大昕同时强调，模型的突破是早于商业化的。就拿openai来说，是先有了gpt-3.5，才有了chatgpt。

因此，在基座模型上面继续投入以追求智能的上限，仍然是当下最重要的一件事。

要怎么去不停触碰智能的边界or天花板？不如先来看看这个领域里最前沿的趋势有哪些。

姜大昕复盘道，趋势共有如下两条：

一条是“模仿学习到强化学习”，另一条是“从多模态融合走向了多模态理解生成一体化”。

从模仿学习到强化学习的技术演进大家已经非常熟悉， openai的o1、o3，以及deepseek-r1背后采用的都是强化学习技术，也是现在大模型玩家争先恐后着重投入的方向。

第二条趋势则关乎多模态。

姜大昕再次提到了那句他在多个场合不停重复提及的话：多模态是实现agi的必经之路。

无论是从人类智能的多元化角度（符号智能、视觉智能、空间智能等），还是从垂直领域ai应用需求来说，大模型的多模态能力都必不可少。

在这样的认知指导下，阶跃星辰在研发基座模型时采取了散弹式打法：

成立两年，公司累计发布22款基座模型，覆盖文字、语音、图像、视频、音乐、推理等系列。

其中有16款是多模态模型，占据总数七成；这些多模态模型又分属图像理解、视频理解、图像生成、视频生成、图像编辑、音乐生成、多模态推理等方向。

业界公认阶跃是多模态卷王，也不是没有道理。

多模态理解生成一体化才是未来

至于如何追求智能的上限，阶跃目前行进的路线与第一次公开亮相时所讲的那样一般无二，即“单模态——多模态——多模态理解和生成的统一——世界模型——agi”。

姜大昕重点解释了关于“多模态理解生成一体化”的部分。

它意味着多模态模型的理解和生成用一个模型来完成，而不是“视频/图像/语言转文本——文本理解与生成——生成结果转视频/图像/语音”的三段式过程。

大语言模型的理解生成一体化，已经有类gpt实现统一；然而在视觉领域并不如此，人们往往在理解视觉内容时选择一个模型，在生成内容时调用另一个模型。

这并不是一个可以直接从语言模型的ntp（next-token-prediction）直接迁移到视觉模型的nfp（next-frame-prediction）的简单事。

语言文本模态是低维度离散分布的，而视觉模态是高维度连续分布，这也就是说后者在进行训练学习时，复杂性更高。

从技术角度来看，视觉领域的内容生成需要理解来控制——如果想保证生成内容有意义、有价值，实际上需要对视觉的“上下文”作出更好的理解。

反言之，理解需要生成来监督。姜大昕解释说，就是“只有生成了的时候才是真正的理解了”。

现在，视觉领域还没有出现自己的transformer架构，阶跃就是想做出一个视觉领域的、生成一体化架构，并且是非常scalable的。

姜大昕分享道，gpt-4o可能已经实现了多模态理解生成一体化，而阶跃的图像编辑模型step1x-edit也初步实现了这一点。

之所以称其为“初步”，是阶跃觉得step1x-edit的效果依然有很大改进空间，还可以在架构上做进一步的优化，数据上也可以做进一步的打磨，让它的效果变得更好一些。

但具体走哪条路线能精益求精，不管是阶跃内部还是业界都没有公认的真理。姜大昕表示，在这一方面，阶跃内部多有条技术路线并行，因为确实哪一条路线都会有可能出现突破。

“一旦突破以后，今后的道路会更加顺畅。”姜大昕称。

one more thing

既然认可多模态理解生成一体化才是未来，为什么阶跃不把所有的精力集中在step-r1-v-mini这样的多模态推理模型上，反而是要在各个模态上都发力呢？

量子位把这个问题抛给了姜大昕。

他很坦然，表示也想过做，但这行不通。

理解生成一体化是非常综合素质的考验。
首先要理解。如果语言模型不行就谈不上理解，何况现在语言模型又进化到了推理模型，这块不能省。
第二要做视觉推理。视觉推理是视觉理解的升级，所以要做视觉理解。
要做理解生成一体化还要有生成端，所以生成也必须做。

简单点说，做理解生成一体化，必须自身具备非常强的综合实力。

但姜大昕信心满满，“我们几条线的能力都非常强，所以才可以组合起来去探索这个路径”。

游戏

决赛提前预演？BLG再战TES，iG拒绝连败

北京时间 6 月 2 日，英雄联盟LPL将在这一天迎来一场备受瞩目的焦点之战，TES 对阵 BLG。这场比赛对于双方而言都至关重要，胜利的一方只要再赢一场，便能率先夺得 2025MSI 季中冠军赛的入场券，因此两支战队都对这场胜利志在必得。近期BLG的表现堪称惊艳，展现出高度的纪律性，与以往大优势时容易出现波动、险些翻车的情况...

06月02日 5269

主播说：从记者到头版编辑，她尝试打通“全媒传播”任督二脉

在南都，在N视频，我们的记者、编辑、主播，以纸笔、以键盘、以镜头、以麦克风……报告事实，传递信息，表达观点，厘清常识，也展现出属于他们各自的风采——主播说，我们的风采，他们的故事。本期自述人：南都编辑董晓妍清晨6点，打开手机：没有微信，没有电话——这证明，昨夜报纸出刊一切正常，此刻甚至已被送到一些晨...

06月02日 9285

韩国提前投票结束，李在明领先？投票率不如预期，李在明胜势大衰

韩国大选提前投票今天结束，李在明还保持领先吗？保守派候选人统一可能再现，突显李在明胜势大衰，金文洙真的有望翻盘？ 5月30号，是韩国大选提前投票的第二天，也是最后一天，这一天结束后，韩国就....

06月01日 8535

6.0男角色连发！5.8新皮肤人选！6.0两位执行官up，博士进本被刀

各位旅行者们好呀！原神5.6前瞻直播已经定档6月6日的晚8点进行直播，预计最快下周三大家就能看到前瞻预告了，据说这次前瞻会提前预热6.0大版本的挪德卡莱，除了介绍新地图新玩法之外，会不会也提前放出新角色的剪影呢？说实话让人还蛮期待的！对于5

06月01日 1044

拳头游戏发布LOL币和拳头币？都是假的！

互联网世界的黑客事件已经非常普遍，毕竟社交平台已经成为了人们面对世界的窗口，他们不仅针对小账户，大账户也同样如此。事实上，巴西《英雄联盟》的推特账户在本周也成为了这种不明黑客行为的受害者，官方账号被....

06月01日 3243

梦幻联赛S26小组赛加赛:大招频出BB 2-1战胜Talon

梦幻联赛S26小组赛加赛，BB 2-1战胜Talon。BB进入胜者组而Talon进入败者组。比赛概况：第一局BB线上打出巨大优势随后开始扫图，小娜迦加祸乱的控制前期一抓一个准，Talon唯一输出点兽王无解穷正面完全不少对手，23分钟就被打崩

06月01日 1951

LOL：TES成最大赢家，四人入选最佳阵容，BLG中单左手解锁新成就

随着LPL赛区第二赛段常规赛结束，LPL官方终于是公布了大家期待的最佳阵容名单，和以往一样，最佳阵容名单分为三个档次加一个最佳选手，先说一下一阵的最佳阵容，五个选手分别是369、Kanavi、左手、阿水和Kael，对于观众来说这个一阵最佳阵容毫无争议，在常规赛阶段，TES战队作为LPL大王有三人入选，并且这三个人在队伍中都...

06月01日 7161