當人工智能開始理解「將雕像背景換成櫻花季,但保留大理石紋理」這樣的複雜指令時,視覺創作領域正迎來一場靜默革命。位元組跳動Seed團隊發佈開源多模態基礎模型BAGEL首次在統一架構中實現理解與生成能力的協同進化。
Seed團隊推出的開源多模態基礎模型,擁有7B活躍參數(總量14B),核心突破在於:
- 全能選手:同時精通圖像理解、文本生成、自由編輯、3D操作、視頻預測
- 性能屠榜:超越Qwen2.5-VL、InternVL-2.5等開源模型,圖像生成質量媲美SD3
- 思維鏈推理:首創「先思考再生成」模式,解決複雜指令如「展示蛋糕裝飾後的效果
- 已經在 hugging face 上面開源,且提供了 demo 試用,且免費
BAGEL模型是一個多模態模型,不僅支持文本圖片生成,還可以根據用戶的描述來修改圖片內容或者圖片風格轉換。
而且BAGEL模型在進行回答前,還會進行深度思考,重點考慮用戶輸入的內容,並針對自己的理解進行思考,確保能夠正確理解用戶的需求。
BAGEL多模態模型引用了大語言模型的思考鏈模式,用戶可以從回答上,清楚的看到BAGEL模型的思考過程。
當然BAGEL模型除了能夠生成圖片外,還可以針對某個圖片進行交流,可以根據用戶輸入的圖片進行識別,並回答用戶提問的關於圖片的問題等等。
BAGEL模型可以針對用戶輸入的圖片進行圖片的編輯,比如修改圖片的風格,一句話讓模型修改圖片成卡通樣式。當年運行 pyhton 腳本,修改圖片成卡通樣式,花了小編不少的功夫,現在就需要一句話。
當然更別說,圖片上色,圖片清晰度增加,人臉識別並增加口罩等等操作,BAGEL模型都不在話下。
當然你也可以讓模型多輸出幾張圖片,並進行連貫起來,生成動態的視頻,BAGEL模型還可以生成圖片的3D模型,這樣直接就可以打印出來 3D 效果的手辦了。
突破性架構:雙專家系統的共生進化
傳統多模態模型面臨的核心矛盾在於:理解模型(如CLIP)與生成模型(如Stable Diffusion)的架構割裂,導致跨模態信息傳遞效率低下。BAGEL首創的MoT(Mixture-of-Transformers)架構通過三大創新解決此問題:
1. 模態專家動態路由
模型包含兩個獨立的Transformer專家網絡:
理解專家:採用SigLIP2視覺編碼器,支持原生長寬比處理,最高解析980px圖像。其優勢在於捕捉語義細節,例如識別雕塑衣褶的物理褶皺規律。
生成專家:基於FLUX VAE與Rectified Flow擴散框架,通過8倍降採樣保留像素級特徵。當用戶指令涉及材質修改(如「將甜甜圈變為鋁箔材質」)時,該網絡精準重構金屬反光屬性。
2. 共享注意力層的無損交互
兩大專家在每個Transformer塊共享自注意力機制,實現文本-圖像的無損上下文交互。對比顯示,傳統外部擴散器方案(如LLaMAFusion)因潛變量壓縮會丟失30%以上空間關係信息,而BAGEL在「多物體位置交換」任務中的準確率提升至78.5%。
3. 廣義因果注意力機制
針對視頻與多圖生成場景,BAGEL設計擴散強制策略(Diffusion Forcing):將連續幀分組並施加相同噪聲水平,在生成當前幀時參考前序幀的噪聲表徵。這使得模型可處理「火星車移動軌跡模擬」等長序列任務,在Koala-36M視頻數據集測試中時序一致性評分達9.2/10。
數據引擎:萬億Token交錯語料庫的構建奧秘
BAGEL的性能根基源於其萬億級訓練數據,其構建邏輯顛覆傳統數據集範式:
1. 多模態交錯數據(Interleaved Data)的核心價值
與傳統圖文配對數據不同,交錯數據保留真實世界模態關聯:
視頻源:45M片段來自MVImgNet 2.0與Koala-36M,經輕量鏡頭檢測與CLIP去重後,提煉幀間動態描述(如「咖啡杯跌落時水面波紋擴散」)
網頁源:20M教程/百科文檔通過兩階段過濾:先由FastText篩選高圖文對齊主題,再用Qwen2.5-VL插入概念支架描述(如在圖片前添加「19世紀蒸汽朋克風格齒輪組件」引導生成)
2. 推理增強數據的創新生產
針對複雜編輯任務,團隊構建50萬思維鏈增強樣本:
自由編輯樣本:基於OmniEdit數據集,要求模型解析「如何將真人照片轉為吉卜力動畫風格」的步驟
概念編輯樣本:從網頁序列提取圖像對,引導VLM生成「將工業設計圖轉化為素描稿」的轉換邏輯
文本到圖像樣本:用模糊指令(如「汽車組成的汽車」)觸發Qwen2.5-72B生成詳細提示詞,再通過FLUX生成目標圖像
這種數據策略使BAGEL在智能編輯基準IntelligentBench上的得分達55.3,遠超Step1X-Edit的14.9。
湧現能力:超越基準測試的創造性突破
隨着訓練規模擴大,BAGEL展現出教科書級的能力湧現現象:
1. 三階段能力解鎖曲線(基於5.2T Token訓練監測)
階段1(<0.68T Token):基礎理解與生成能力成熟,圖文匹配準確率達91%
階段2(1-2.64T Token):經典編輯技能顯現,對象替換任務FID分數降至12.3
階段3(>3.61T Token):智能編輯能力躍升,需世界知識的任務成功率從15%升至45%
2. 思維鏈激發的質變
當啟用「思考模式」時,模型表現發生顛覆性變化:
文本到圖像任務:在WISE常識基準上,添加自我推理步驟使分數從0.52躍至0.70
概念編輯任務:面對「展示汽車內飾」指令,模型先解析「需保持外型連貫性,重點呈現儀錶盤材質與空間布局」,輸出細節完整度提升40%
失敗案例轉化:對初代失敗的「行星水果盤」指令,後期模型通過推理「水果紋理與行星光環的光學兼容性」實現合理生成
位元組跳動公開的進化路線圖揭示下一步方向:
多模態強化學習(RLHF):引入人類反饋優化複雜指令遵循能力
跨模態擴展:集成音頻生成模塊,實現「描述雨聲+生成雨中街景」的聯動創作
實時協作框架:開發插件支持PS/Figma等工具實時響應自然語言指令
當想像力成為唯一生產力:BAGEL模型的意義遠超技術本身:它標誌着視覺創作從「技能依賴型」向「意圖驅動型」的範式轉移。當攝影師不再糾結遮罩邊緣,設計師告別參數調試,教師一鍵生成細胞分裂動畫時,人類創造力終於掙脫工具枷鎖。正如項目負責人Haoqi Fan在論文結語所寫:「我們正從『人適應機器』的時代,邁向『機器理解人』的奇點。」
BAGEL可以在線體驗,可以在官方網站進入 demo,輸入文字進行圖片生成,以及輸入圖片,並進行圖片相關的編輯操作,真正的強大!
https://bagel-ai.org/