字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有

2025年06月17日07:22:04 科技 1670

人工智能开始理解“将雕像背景换成樱花季,但保留大理石纹理”这样的复杂指令时,视觉创作领域正迎来一场静默革命。字节跳动Seed团队发布开源多模态基础模型BAGEL首次在统一架构中实现理解与生成能力的协同进化

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

Seed团队推出的开源多模态基础模型,拥有7B活跃参数(总量14B),核心突破在于:

  • 全能选手:同时精通图像理解、文本生成、自由编辑、3D操作、视频预测
  • 性能屠榜:超越Qwen2.5-VL、InternVL-2.5等开源模型,图像生成质量媲美SD3
  • 思维链推理:首创“先思考再生成”模式,解决复杂指令如“展示蛋糕装饰后的效果
  • 已经在 hugging face 上面开源,且提供了 demo 试用,且免费

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

BAGEL模型是一个多模态模型,不仅支持文本图片生成,还可以根据用户的描述来修改图片内容或者图片风格转换。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

而且BAGEL模型在进行回答前,还会进行深度思考,重点考虑用户输入的内容,并针对自己的理解进行思考,确保能够正确理解用户的需求。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

BAGEL多模态模型引用了大语言模型的思考链模式,用户可以从回答上,清楚的看到BAGEL模型的思考过程。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

当然BAGEL模型除了能够生成图片外,还可以针对某个图片进行交流,可以根据用户输入的图片进行识别,并回答用户提问的关于图片的问题等等。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

BAGEL模型可以针对用户输入的图片进行图片的编辑,比如修改图片的风格,一句话让模型修改图片成卡通样式。当年运行 pyhton 脚本,修改图片成卡通样式,花了小编不少的功夫,现在就需要一句话。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

当然更别说,图片上色,图片清晰度增加,人脸识别并增加口罩等等操作,BAGEL模型都不在话下。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

当然你也可以让模型多输出几张图片,并进行连贯起来,生成动态的视频,BAGEL模型还可以生成图片的3D模型,这样直接就可以打印出来 3D 效果的手办了。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

突破性架构:双专家系统的共生进化

传统多模态模型面临的核心矛盾在于:理解模型(如CLIP)与生成模型(如Stable Diffusion)的架构割裂,导致跨模态信息传递效率低下。BAGEL首创的MoT(Mixture-of-Transformers)架构通过三大创新解决此问题:

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

1. 模态专家动态路由

模型包含两个独立的Transformer专家网络:

理解专家:采用SigLIP2视觉编码器,支持原生长宽比处理,最高解析980px图像。其优势在于捕捉语义细节,例如识别雕塑衣褶的物理褶皱规律。

生成专家:基于FLUX VAE与Rectified Flow扩散框架,通过8倍降采样保留像素级特征。当用户指令涉及材质修改(如“将甜甜圈变为铝箔材质”)时,该网络精准重构金属反光属性。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

2. 共享注意力层的无损交互

两大专家在每个Transformer块共享自注意力机制,实现文本-图像的无损上下文交互。对比显示,传统外部扩散器方案(如LLaMAFusion)因潜变量压缩会丢失30%以上空间关系信息,而BAGEL在“多物体位置交换”任务中的准确率提升至78.5%。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

3. 广义因果注意力机制

针对视频与多图生成场景,BAGEL设计扩散强制策略(Diffusion Forcing):将连续帧分组并施加相同噪声水平,在生成当前帧时参考前序帧的噪声表征。这使得模型可处理“火星车移动轨迹模拟”等长序列任务,在Koala-36M视频数据集测试中时序一致性评分达9.2/10。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

数据引擎:万亿Token交错语料库的构建奥秘

BAGEL的性能根基源于其万亿级训练数据,其构建逻辑颠覆传统数据集范式:

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

1. 多模态交错数据(Interleaved Data)的核心价值

与传统图文配对数据不同,交错数据保留真实世界模态关联:

视频源:45M片段来自MVImgNet 2.0与Koala-36M,经轻量镜头检测与CLIP去重后,提炼帧间动态描述(如“咖啡杯跌落时水面波纹扩散”)

网页源:20M教程/百科文档通过两阶段过滤:先由FastText筛选高图文对齐主题,再用Qwen2.5-VL插入概念支架描述(如在图片前添加“19世纪蒸汽朋克风格齿轮组件”引导生成)

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

2. 推理增强数据的创新生产

针对复杂编辑任务,团队构建50万思维链增强样本:

自由编辑样本:基于OmniEdit数据集,要求模型解析“如何将真人照片转为吉卜力动画风格”的步骤

概念编辑样本:从网页序列提取图像对,引导VLM生成“将工业设计图转化为素描稿”的转换逻辑

文本到图像样本:用模糊指令(如“汽车组成的汽车”)触发Qwen2.5-72B生成详细提示词,再通过FLUX生成目标图像

这种数据策略使BAGEL在智能编辑基准IntelligentBench上的得分达55.3,远超Step1X-Edit的14.9。

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

涌现能力:超越基准测试的创造性突破

随着训练规模扩大,BAGEL展现出教科书级的能力涌现现象:

1. 三阶段能力解锁曲线(基于5.2T Token训练监测)

阶段1(<0.68T Token):基础理解与生成能力成熟,图文匹配准确率达91%

阶段2(1-2.64T Token):经典编辑技能显现,对象替换任务FID分数降至12.3

阶段3(>3.61T Token):智能编辑能力跃升,需世界知识的任务成功率从15%升至45%

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

2. 思维链激发的质变

当启用“思考模式”时,模型表现发生颠覆性变化:

文本到图像任务:在WISE常识基准上,添加自我推理步骤使分数从0.52跃至0.70

概念编辑任务:面对“展示汽车内饰”指令,模型先解析“需保持外型连贯性,重点呈现仪表盘材质与空间布局”,输出细节完整度提升40%

失败案例转化:对初代失败的“行星水果盘”指令,后期模型通过推理“水果纹理与行星光环的光学兼容性”实现合理生成


字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

字节跳动公开的进化路线图揭示下一步方向:

多模态强化学习(RLHF):引入人类反馈优化复杂指令遵循能力

跨模态扩展:集成音频生成模块,实现“描述雨声+生成雨中街景”的联动创作

实时协作框架:开发插件支持PS/Figma等工具实时响应自然语言指令

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

当想象力成为唯一生产力:BAGEL模型的意义远超技术本身:它标志着视觉创作从“技能依赖型”向“意图驱动型”的范式转移。当摄影师不再纠结遮罩边缘,设计师告别参数调试,教师一键生成细胞分裂动画时,人类创造力终于挣脱工具枷锁。正如项目负责人Haoqi Fan在论文结语所写:“我们正从‘人适应机器’的时代,迈向‘机器理解人’的奇点。”

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

BAGEL可以在线体验,可以在官方网站进入 demo,输入文字进行图片生成,以及输入图片,并进行图片相关的编辑操作,真正的强大!

字节跳动开源BAGEL:自由编辑图片,生成视频、3D建模,应有尽有 - 天天要闻

https://bagel-ai.org/

科技分类资讯推荐

台州学院“智方同源”团队:以数智科技赋能传统药食同源 - 天天要闻

台州学院“智方同源”团队:以数智科技赋能传统药食同源

在台州学院创业学院的鼎力支持与浙江省生态学保护重点实验室的科研支撑下,台州学院“智方同源”学生团队应运而生。该团队聚焦于药食同源领域,创新性地将大数据分析与人工智能技术深度融入功能食品配方设计,首创传统食疗配方图神经分析技术、食品配方成分-功效网络模块互作评价方法和口感预测卷积神经网络分析技术,致力...
S11芯片+5G加持!Apple Watch Ultra 3今年登场? - 天天要闻

S11芯片+5G加持!Apple Watch Ultra 3今年登场?

日前,分析师 Jeff Pu在一份关于苹果2025年的产品规划路线图里提到,除了新款 Apple Watch Series 11,今年苹果也将推出大家都十分关注的新款智能手表 Apple Watch Ultra 3。届时 Apple Watch Series 11以及 Apple Watch Ultra 3这两款新手将会和期待已久的 iPhone 17 系列
以伊冲突还在打,市场却已经翻篇了! - 天天要闻

以伊冲突还在打,市场却已经翻篇了!

本周一的交易数据讲述了一个令人震惊的故事。就在以色列和伊朗两国持续相互攻击之际,黄金价格下跌,美债收益率上升,股市波动率暴跌。股票相对于长期债券的表现达到了特朗普就职日以来的最强水平。这些都是典型的"风险开启"环境信号。以色列攻击伊朗核设施长期以来被视为可能严重恶化全球风险环境的"终极事件",然而,油价...
人民日报盛赞华为、C919以及DeepSeek - 天天要闻

人民日报盛赞华为、C919以及DeepSeek

【TechWeb】据今日《人民日报》报道,无论是中小型企业还是科技行业的领军巨头,都在不断的实践与探索中凝练出了一条共通的发展真理:持之以恒,沉得住气。面对外界的封锁与压力,华为公司逆境而上,推出了具有突破性的麒麟系列芯片,并自主研发了鸿蒙操作系统,这些新产品在全球市场上实现了重要突破。华为创始人任正非表...
Polyphony Digital于6月7日发布小米和Gran Turismo的合作 - 天天要闻

Polyphony Digital于6月7日发布小米和Gran Turismo的合作

总部在中国北京的小米,2021年宣布加入智能电动汽车行业,2024年发售自己的第一个量产电车SU7。旗舰车型SU7 Ultra,拥有1548匹马力惊人的性能。并且以挑战纽北北圈记录为目标开发的SU7 Ultra原型车,以6分46秒874打破了4门车在纽北的圈速记录,在世界上受到车迷的广泛关注。小米在接下来,将会与Gran Turismo 一起制作Visi..
网易云VIP突然宣布免费,还不领就来不及了 - 天天要闻

网易云VIP突然宣布免费,还不领就来不及了

听劝的风,再次吹到了网易云音乐身上。一直以来,网易云和QQ音乐上的平板端适配,都是平板用户们重点关注的话题。此前网易云在安卓平板上,已经完成了比较成熟的大屏适配。可在iPad端上,机哥从2024年等到今年年中,还是等不到它的出现。直到这两天
数据中心告别“烫手芯片” 曙光数创推出全生命周期液冷解决方案 - 天天要闻

数据中心告别“烫手芯片” 曙光数创推出全生命周期液冷解决方案

IT时报记者 郝俊慧面对越来越“热”的算力芯片,曙光数创正想让它快点“冷”下来。在刚刚结束的2025中国智算中心全栈技术大会上,曙光数创发布“新服务、新技术、新架构”三大新品,旨在通过一体化、全生命周期的服务新范式,解决当前液冷行业面临的诸多痛点。“液冷即服务,这个概念在行业里早就有需求了。”曙光数创副总...