多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化

2025年05月10日15:10:22 游戏 6224

衡宇 发自 凹非寺

量子位 | 公众号 qbitai

当大模型赛道中不少玩家明确表示放弃基础大模型研发,心思放在更聚焦的方向上时,阶跃星辰站出来——就像这家公司第一次亮相时那样,给外界一个明确的回答:

我们会坚持基础大模型研发。

创始人兼ceo姜大昕解释了背后逻辑。

一方面,大模型行业的趋势技术发展还是在非常陡峭的区间。他也很感慨ai行业发展瞬息万变,“去年大家觉得gpt-4很牛,今天他都快下架了”,等到明年看今年的技术,同样会觉得微不足道。

姜大昕说,阶跃不想在这个过程中放弃主流增长或前进的趋势,所以还是会坚持做基础模型的研发。

多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化 - 天天要闻

另一方面,从应用的角度来看,阶跃仍然相信应用和模型是相辅相成的。

“模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。”姜大昕表示,虽然阶跃的产品形态随着模型的演变是动态发展的,但这样的逻辑关系还是一直保持下去的。

确实如他所说,在过去的一年里,阶跃星辰旗下产品从命名、布局和形态上都发生了转变。

主打的c端助手app,由“跃问”改名为“阶跃ai”,意味着它从类chatgpt产品到agent的转变;产品重点形态从用户普遍直接使用的手机app变成了端云一体agent平台。

“虽然我们的智能终端agent和头部企业合作,但总体而言,阶跃的产品最终是服务c端的。”姜大昕表示,“不管作为助手类也好、内容类也好,都有非常大的机会。”

大模型领域的两条显著趋势

姜大昕同时强调,模型的突破是早于商业化的。就拿openai来说,是先有了gpt-3.5,才有了chatgpt。

因此,在基座模型上面继续投入以追求智能的上限,仍然是当下最重要的一件事。

要怎么去不停触碰智能的边界or天花板?不如先来看看这个领域里最前沿的趋势有哪些。

姜大昕复盘道,趋势共有如下两条:

一条是“模仿学习到强化学习”,另一条是“从多模态融合走向了多模态理解生成一体化”。

从模仿学习到强化学习的技术演进大家已经非常熟悉, openai的o1、o3,以及deepseek-r1背后采用的都是强化学习技术,也是现在大模型玩家争先恐后着重投入的方向。

多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化 - 天天要闻

第二条趋势则关乎多模态。

姜大昕再次提到了那句他在多个场合不停重复提及的话:多模态是实现agi的必经之路。

无论是从人类智能的多元化角度(符号智能、视觉智能、空间智能等),还是从垂直领域ai应用需求来说,大模型的多模态能力都必不可少。

在这样的认知指导下,阶跃星辰在研发基座模型时采取了散弹式打法:

成立两年,公司累计发布22款基座模型,覆盖文字、语音、图像、视频、音乐、推理等系列。

其中有16款是多模态模型,占据总数七成;这些多模态模型又分属图像理解、视频理解、图像生成、视频生成、图像编辑、音乐生成、多模态推理等方向。

业界公认阶跃是多模态卷王,也不是没有道理。

多模态理解生成一体化才是未来

至于如何追求智能的上限,阶跃目前行进的路线与第一次公开亮相时所讲的那样一般无二,即“单模态——多模态——多模态理解和生成的统一——世界模型——agi”。

姜大昕重点解释了关于“多模态理解生成一体化”的部分。

它意味着多模态模型的理解和生成用一个模型来完成,而不是“视频/图像/语言转文本——文本理解与生成——生成结果转视频/图像/语音”的三段式过程。

大语言模型的理解生成一体化,已经有类gpt实现统一;然而在视觉领域并不如此,人们往往在理解视觉内容时选择一个模型,在生成内容时调用另一个模型。

这并不是一个可以直接从语言模型的ntp(next-token-prediction)直接迁移到视觉模型的nfp(next-frame-prediction)的简单事。

语言文本模态是低维度离散分布的,而视觉模态是高维度连续分布,这也就是说后者在进行训练学习时,复杂性更高。

多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化 - 天天要闻

从技术角度来看,视觉领域的内容生成需要理解来控制——如果想保证生成内容有意义、有价值,实际上需要对视觉的“上下文”作出更好的理解。

反言之,理解需要生成来监督。姜大昕解释说,就是“只有生成了的时候才是真正的理解了”。

现在,视觉领域还没有出现自己的transformer架构,阶跃就是想做出一个视觉领域的、生成一体化架构,并且是非常scalable的。

姜大昕分享道,gpt-4o可能已经实现了多模态理解生成一体化,而阶跃的图像编辑模型step1x-edit也初步实现了这一点。

之所以称其为“初步”,是阶跃觉得step1x-edit的效果依然有很大改进空间,还可以在架构上做进一步的优化,数据上也可以做进一步的打磨,让它的效果变得更好一些。

但具体走哪条路线能精益求精,不管是阶跃内部还是业界都没有公认的真理。姜大昕表示,在这一方面,阶跃内部多有条技术路线并行,因为确实哪一条路线都会有可能出现突破。

“一旦突破以后,今后的道路会更加顺畅。”姜大昕称。

one more thing

既然认可多模态理解生成一体化才是未来,为什么阶跃不把所有的精力集中在step-r1-v-mini这样的多模态推理模型上,反而是要在各个模态上都发力呢?

量子位把这个问题抛给了姜大昕。

他很坦然,表示也想过做,但这行不通

理解生成一体化是非常综合素质的考验。
首先要理解。如果语言模型不行就谈不上理解,何况现在语言模型又进化到了推理模型,这块不能省。
第二要做视觉推理。视觉推理是视觉理解的升级,所以要做视觉理解。
要做理解生成一体化还要有生成端,所以生成也必须做。

简单点说,做理解生成一体化,必须自身具备非常强的综合实力

但姜大昕信心满满,“我们几条线的能力都非常强,所以才可以组合起来去探索这个路径”。

游戏分类资讯推荐

大话西游2:老玩家20年第一次?含着金钥匙出生的冰雪魔?7分钟毕业,现在还是0级! - 天天要闻

大话西游2:老玩家20年第一次?含着金钥匙出生的冰雪魔?7分钟毕业,现在还是0级!

哈喽!大家好,经典网络游戏大话西游2的小编又给大家带来了最新游戏资讯,感兴趣的玩家朋友们就跟随小编的镜头一起往下看吧~标题内容在文章末尾!每天慢慢降价,云中歌已经是变成笑话了。上架藏宝阁不就是为了成交么?没有成交,你摆1000万,也是空气。如果第二只圣猿出来,云中歌估计就要懵逼了吧。这年头还有人找回这么老...
Show出你的技术赢取重磅礼品,Switch玩家速来挑战! - 天天要闻

Show出你的技术赢取重磅礼品,Switch玩家速来挑战!

【ZOL中关村在线原创新闻】游戏玩的好也是真本事,但怎样才能让大家知晓呢?那就来“音速存储玩出位”三星存储&Jump疾速挑战赛大展身手吧,而且还有丰厚的奖品等着你。这场赛事已于5月20日拉开序幕,吸引了大批Switch玩家前来参与,参与要趁早哦。本次挑战赛在国内知名游戏社区Jump上线,在智能手机下载安装Jump app并注册...
任天堂Switch 2正式开售!港版还能用国补?3654.2元 - 天天要闻

任天堂Switch 2正式开售!港版还能用国补?3654.2元

任天堂Switch 2今日正式开启全球发售,这款备受期待的主机以差异化定价策略登陆不同市场。日本本土提供两个版本:基础版售价49980日元(约合人民币2503元),支持日语系统及服务;多语言版定价69980日元(约合人民币3504元),覆盖全球语言体系。国内电商平台同步开启预售,京东电竞自营店标价4299元,叠加国家补贴后实际到...
备战MSI版本!设计师提高赛场英雄多样性 - 天天要闻

备战MSI版本!设计师提高赛场英雄多样性

6月4日,《英雄联盟》首席玩法设计师Phroxzon,在个人主页上放出了25.12版本的完整改动预览。这些内容已经在今天实装到正式服,明天可能会有一些微调,然后就在下周四上线国服正式服。虽然25.1....
李在明为什么能赢,他会给韩国带来什么? - 天天要闻

李在明为什么能赢,他会给韩国带来什么?

韩国总统李在明6月4日正式宣誓就职。李在明是谁?他为什么能赢得韩国总统大选?他会给韩国内政外交带来怎样的变化?李在明是谁?现年61岁的李在明,出身贫寒,中学时期曾辍学到工厂打工。在一次生产事故中,他的左臂被机器夹伤落下残疾。后来凭借自身努力,李在明考入韩国中央大学法学院,通过了司法考试,和韩前总统卢武铉...
WNBA:李月汝6+2三分平两纪录险胜 状态火爆却不到6分钟被弃用 - 天天要闻

WNBA:李月汝6+2三分平两纪录险胜 状态火爆却不到6分钟被弃用

北京时间6月4日,WNBA常规赛西雅图风暴主场对阵达拉斯飞翼,新科状元佩奇因为脑震荡缺席。西雅图风暴在上半场落后8分情况下,凭借下半场出色表现逆袭,最终西雅图风暴83-77逆转双杀达拉斯飞翼结束3连败。只是中国女篮核心李月汝首节就命中两记三分得到6分,但状态火爆情况下仅替补登场5分45秒,次节仅开局打14秒就被弃用引...
小屏幕也能畅快游戏,一加13T来助你 - 天天要闻

小屏幕也能畅快游戏,一加13T来助你

小尺寸也能有优秀的性能?这次一加13T 带来了 6.32 英寸的小尺寸屏幕以及骁龙8 至尊版的强大性能,甚至还有“风驰游戏内核”的加入,让一加13T 实现舒适手感和流畅游戏的完美结合。细节上,一加13T 的宽度仅有 71.7mm,配合 “黄金 R 角” 和四边极窄设计的屏幕,以及 50:50 的配重,无论是观感还是手感,都能有不错的感受...