字节跳动开源BAGEL：自由编辑图片，生成视频、3D建模，应有尽有

2025年06月17日07:22:04 科技 1670

当人工智能开始理解“将雕像背景换成樱花季，但保留大理石纹理”这样的复杂指令时，视觉创作领域正迎来一场静默革命。字节跳动Seed团队发布开源多模态基础模型BAGEL首次在统一架构中实现理解与生成能力的协同进化。

Seed团队推出的开源多模态基础模型，拥有7B活跃参数（总量14B），核心突破在于：

全能选手：同时精通图像理解、文本生成、自由编辑、3D操作、视频预测
性能屠榜：超越Qwen2.5-VL、InternVL-2.5等开源模型，图像生成质量媲美SD3
思维链推理：首创“先思考再生成”模式，解决复杂指令如“展示蛋糕装饰后的效果
已经在 hugging face 上面开源，且提供了 demo 试用，且免费

BAGEL模型是一个多模态模型，不仅支持文本图片生成，还可以根据用户的描述来修改图片内容或者图片风格转换。

而且BAGEL模型在进行回答前，还会进行深度思考，重点考虑用户输入的内容，并针对自己的理解进行思考，确保能够正确理解用户的需求。

BAGEL多模态模型引用了大语言模型的思考链模式，用户可以从回答上，清楚的看到BAGEL模型的思考过程。

当然BAGEL模型除了能够生成图片外，还可以针对某个图片进行交流，可以根据用户输入的图片进行识别，并回答用户提问的关于图片的问题等等。

BAGEL模型可以针对用户输入的图片进行图片的编辑，比如修改图片的风格，一句话让模型修改图片成卡通样式。当年运行 pyhton 脚本，修改图片成卡通样式，花了小编不少的功夫，现在就需要一句话。

当然更别说，图片上色，图片清晰度增加，人脸识别并增加口罩等等操作，BAGEL模型都不在话下。

当然你也可以让模型多输出几张图片，并进行连贯起来，生成动态的视频，BAGEL模型还可以生成图片的3D模型，这样直接就可以打印出来 3D 效果的手办了。

突破性架构：双专家系统的共生进化

传统多模态模型面临的核心矛盾在于：理解模型（如CLIP）与生成模型（如Stable Diffusion）的架构割裂，导致跨模态信息传递效率低下。BAGEL首创的MoT（Mixture-of-Transformers）架构通过三大创新解决此问题：

1. 模态专家动态路由

模型包含两个独立的Transformer专家网络：

理解专家：采用SigLIP2视觉编码器，支持原生长宽比处理，最高解析980px图像。其优势在于捕捉语义细节，例如识别雕塑衣褶的物理褶皱规律。

生成专家：基于FLUX VAE与Rectified Flow扩散框架，通过8倍降采样保留像素级特征。当用户指令涉及材质修改（如“将甜甜圈变为铝箔材质”）时，该网络精准重构金属反光属性。

2. 共享注意力层的无损交互

两大专家在每个Transformer块共享自注意力机制，实现文本-图像的无损上下文交互。对比显示，传统外部扩散器方案（如LLaMAFusion）因潜变量压缩会丢失30%以上空间关系信息，而BAGEL在“多物体位置交换”任务中的准确率提升至78.5%。

3. 广义因果注意力机制

针对视频与多图生成场景，BAGEL设计扩散强制策略（Diffusion Forcing）：将连续帧分组并施加相同噪声水平，在生成当前帧时参考前序帧的噪声表征。这使得模型可处理“火星车移动轨迹模拟”等长序列任务，在Koala-36M视频数据集测试中时序一致性评分达9.2/10。

数据引擎：万亿Token交错语料库的构建奥秘

BAGEL的性能根基源于其万亿级训练数据，其构建逻辑颠覆传统数据集范式：

1. 多模态交错数据（Interleaved Data）的核心价值

与传统图文配对数据不同，交错数据保留真实世界模态关联：

视频源：45M片段来自MVImgNet 2.0与Koala-36M，经轻量镜头检测与CLIP去重后，提炼帧间动态描述（如“咖啡杯跌落时水面波纹扩散”）

网页源：20M教程/百科文档通过两阶段过滤：先由FastText筛选高图文对齐主题，再用Qwen2.5-VL插入概念支架描述（如在图片前添加“19世纪蒸汽朋克风格齿轮组件”引导生成）

2. 推理增强数据的创新生产

针对复杂编辑任务，团队构建50万思维链增强样本：

自由编辑样本：基于OmniEdit数据集，要求模型解析“如何将真人照片转为吉卜力动画风格”的步骤

概念编辑样本：从网页序列提取图像对，引导VLM生成“将工业设计图转化为素描稿”的转换逻辑

文本到图像样本：用模糊指令（如“汽车组成的汽车”）触发Qwen2.5-72B生成详细提示词，再通过FLUX生成目标图像

这种数据策略使BAGEL在智能编辑基准IntelligentBench上的得分达55.3，远超Step1X-Edit的14.9。

涌现能力：超越基准测试的创造性突破

随着训练规模扩大，BAGEL展现出教科书级的能力涌现现象：

1. 三阶段能力解锁曲线（基于5.2T Token训练监测）

阶段1（<0.68T Token）：基础理解与生成能力成熟，图文匹配准确率达91%

阶段2（1-2.64T Token）：经典编辑技能显现，对象替换任务FID分数降至12.3

阶段3（>3.61T Token）：智能编辑能力跃升，需世界知识的任务成功率从15%升至45%

2. 思维链激发的质变

当启用“思考模式”时，模型表现发生颠覆性变化：

文本到图像任务：在WISE常识基准上，添加自我推理步骤使分数从0.52跃至0.70

概念编辑任务：面对“展示汽车内饰”指令，模型先解析“需保持外型连贯性，重点呈现仪表盘材质与空间布局”，输出细节完整度提升40%

失败案例转化：对初代失败的“行星水果盘”指令，后期模型通过推理“水果纹理与行星光环的光学兼容性”实现合理生成

字节跳动公开的进化路线图揭示下一步方向：

多模态强化学习（RLHF）：引入人类反馈优化复杂指令遵循能力

跨模态扩展：集成音频生成模块，实现“描述雨声+生成雨中街景”的联动创作

实时协作框架：开发插件支持PS/Figma等工具实时响应自然语言指令

当想象力成为唯一生产力：BAGEL模型的意义远超技术本身：它标志着视觉创作从“技能依赖型”向“意图驱动型”的范式转移。当摄影师不再纠结遮罩边缘，设计师告别参数调试，教师一键生成细胞分裂动画时，人类创造力终于挣脱工具枷锁。正如项目负责人Haoqi Fan在论文结语所写：“我们正从‘人适应机器’的时代，迈向‘机器理解人’的奇点。”