当人工智能开始理解“将雕像背景换成樱花季,但保留大理石纹理”这样的复杂指令时,视觉创作领域正迎来一场静默革命。字节跳动Seed团队发布开源多模态基础模型BAGEL首次在统一架构中实现理解与生成能力的协同进化。
Seed团队推出的开源多模态基础模型,拥有7B活跃参数(总量14B),核心突破在于:
- 全能选手:同时精通图像理解、文本生成、自由编辑、3D操作、视频预测
- 性能屠榜:超越Qwen2.5-VL、InternVL-2.5等开源模型,图像生成质量媲美SD3
- 思维链推理:首创“先思考再生成”模式,解决复杂指令如“展示蛋糕装饰后的效果
- 已经在 hugging face 上面开源,且提供了 demo 试用,且免费
BAGEL模型是一个多模态模型,不仅支持文本图片生成,还可以根据用户的描述来修改图片内容或者图片风格转换。
而且BAGEL模型在进行回答前,还会进行深度思考,重点考虑用户输入的内容,并针对自己的理解进行思考,确保能够正确理解用户的需求。
BAGEL多模态模型引用了大语言模型的思考链模式,用户可以从回答上,清楚的看到BAGEL模型的思考过程。
当然BAGEL模型除了能够生成图片外,还可以针对某个图片进行交流,可以根据用户输入的图片进行识别,并回答用户提问的关于图片的问题等等。
BAGEL模型可以针对用户输入的图片进行图片的编辑,比如修改图片的风格,一句话让模型修改图片成卡通样式。当年运行 pyhton 脚本,修改图片成卡通样式,花了小编不少的功夫,现在就需要一句话。
当然更别说,图片上色,图片清晰度增加,人脸识别并增加口罩等等操作,BAGEL模型都不在话下。
当然你也可以让模型多输出几张图片,并进行连贯起来,生成动态的视频,BAGEL模型还可以生成图片的3D模型,这样直接就可以打印出来 3D 效果的手办了。
突破性架构:双专家系统的共生进化
传统多模态模型面临的核心矛盾在于:理解模型(如CLIP)与生成模型(如Stable Diffusion)的架构割裂,导致跨模态信息传递效率低下。BAGEL首创的MoT(Mixture-of-Transformers)架构通过三大创新解决此问题:
1. 模态专家动态路由
模型包含两个独立的Transformer专家网络:
理解专家:采用SigLIP2视觉编码器,支持原生长宽比处理,最高解析980px图像。其优势在于捕捉语义细节,例如识别雕塑衣褶的物理褶皱规律。
生成专家:基于FLUX VAE与Rectified Flow扩散框架,通过8倍降采样保留像素级特征。当用户指令涉及材质修改(如“将甜甜圈变为铝箔材质”)时,该网络精准重构金属反光属性。
2. 共享注意力层的无损交互
两大专家在每个Transformer块共享自注意力机制,实现文本-图像的无损上下文交互。对比显示,传统外部扩散器方案(如LLaMAFusion)因潜变量压缩会丢失30%以上空间关系信息,而BAGEL在“多物体位置交换”任务中的准确率提升至78.5%。
3. 广义因果注意力机制
针对视频与多图生成场景,BAGEL设计扩散强制策略(Diffusion Forcing):将连续帧分组并施加相同噪声水平,在生成当前帧时参考前序帧的噪声表征。这使得模型可处理“火星车移动轨迹模拟”等长序列任务,在Koala-36M视频数据集测试中时序一致性评分达9.2/10。
数据引擎:万亿Token交错语料库的构建奥秘
BAGEL的性能根基源于其万亿级训练数据,其构建逻辑颠覆传统数据集范式:
1. 多模态交错数据(Interleaved Data)的核心价值
与传统图文配对数据不同,交错数据保留真实世界模态关联:
视频源:45M片段来自MVImgNet 2.0与Koala-36M,经轻量镜头检测与CLIP去重后,提炼帧间动态描述(如“咖啡杯跌落时水面波纹扩散”)
网页源:20M教程/百科文档通过两阶段过滤:先由FastText筛选高图文对齐主题,再用Qwen2.5-VL插入概念支架描述(如在图片前添加“19世纪蒸汽朋克风格齿轮组件”引导生成)
2. 推理增强数据的创新生产
针对复杂编辑任务,团队构建50万思维链增强样本:
自由编辑样本:基于OmniEdit数据集,要求模型解析“如何将真人照片转为吉卜力动画风格”的步骤
概念编辑样本:从网页序列提取图像对,引导VLM生成“将工业设计图转化为素描稿”的转换逻辑
文本到图像样本:用模糊指令(如“汽车组成的汽车”)触发Qwen2.5-72B生成详细提示词,再通过FLUX生成目标图像
这种数据策略使BAGEL在智能编辑基准IntelligentBench上的得分达55.3,远超Step1X-Edit的14.9。
涌现能力:超越基准测试的创造性突破
随着训练规模扩大,BAGEL展现出教科书级的能力涌现现象:
1. 三阶段能力解锁曲线(基于5.2T Token训练监测)
阶段1(<0.68T Token):基础理解与生成能力成熟,图文匹配准确率达91%
阶段2(1-2.64T Token):经典编辑技能显现,对象替换任务FID分数降至12.3
阶段3(>3.61T Token):智能编辑能力跃升,需世界知识的任务成功率从15%升至45%
2. 思维链激发的质变
当启用“思考模式”时,模型表现发生颠覆性变化:
文本到图像任务:在WISE常识基准上,添加自我推理步骤使分数从0.52跃至0.70
概念编辑任务:面对“展示汽车内饰”指令,模型先解析“需保持外型连贯性,重点呈现仪表盘材质与空间布局”,输出细节完整度提升40%
失败案例转化:对初代失败的“行星水果盘”指令,后期模型通过推理“水果纹理与行星光环的光学兼容性”实现合理生成
字节跳动公开的进化路线图揭示下一步方向:
多模态强化学习(RLHF):引入人类反馈优化复杂指令遵循能力
跨模态扩展:集成音频生成模块,实现“描述雨声+生成雨中街景”的联动创作
实时协作框架:开发插件支持PS/Figma等工具实时响应自然语言指令
当想象力成为唯一生产力:BAGEL模型的意义远超技术本身:它标志着视觉创作从“技能依赖型”向“意图驱动型”的范式转移。当摄影师不再纠结遮罩边缘,设计师告别参数调试,教师一键生成细胞分裂动画时,人类创造力终于挣脱工具枷锁。正如项目负责人Haoqi Fan在论文结语所写:“我们正从‘人适应机器’的时代,迈向‘机器理解人’的奇点。”
BAGEL可以在线体验,可以在官方网站进入 demo,输入文字进行图片生成,以及输入图片,并进行图片相关的编辑操作,真正的强大!
https://bagel-ai.org/