位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有

人工智慧開始理解「將雕像背景換成櫻花季,但保留大理石紋理」這樣的複雜指令時,視覺創作領域正迎來一場靜默革命。位元組跳動Seed團隊發布開源多模態基礎模型BAGEL首次在統一架構中實現理解與生成能力的協同進化

Seed團隊推出的開源多模態基礎模型,擁有7B活躍參數(總量14B),核心突破在於:

  • 全能選手:同時精通圖像理解、文本生成、自由編輯、3D操作、視頻預測
  • 性能屠榜:超越Qwen2.5-VL、InternVL-2.5等開源模型,圖像生成質量媲美SD3
  • 思維鏈推理:首創「先思考再生成」模式,解決複雜指令如「展示蛋糕裝飾後的效果
  • 已經在 hugging face 上面開源,且提供了 demo 試用,且免費

BAGEL模型是一個多模態模型,不僅支持文本圖片生成,還可以根據用戶的描述來修改圖片內容或者圖片風格轉換。

而且BAGEL模型在進行回答前,還會進行深度思考,重點考慮用戶輸入的內容,並針對自己的理解進行思考,確保能夠正確理解用戶的需求。

BAGEL多模態模型引用了大語言模型的思考鏈模式,用戶可以從回答上,清楚的看到BAGEL模型的思考過程。

當然BAGEL模型除了能夠生成圖片外,還可以針對某個圖片進行交流,可以根據用戶輸入的圖片進行識別,並回答用戶提問的關於圖片的問題等等。

BAGEL模型可以針對用戶輸入的圖片進行圖片的編輯,比如修改圖片的風格,一句話讓模型修改圖片成卡通樣式。當年運行 pyhton 腳本,修改圖片成卡通樣式,花了小編不少的功夫,現在就需要一句話。

當然更別說,圖片上色,圖片清晰度增加,人臉識別並增加口罩等等操作,BAGEL模型都不在話下。

當然你也可以讓模型多輸出幾張圖片,並進行連貫起來,生成動態的視頻,BAGEL模型還可以生成圖片的3D模型,這樣直接就可以列印出來 3D 效果的手辦了。

突破性架構:雙專家系統的共生進化

傳統多模態模型面臨的核心矛盾在於:理解模型(如CLIP)與生成模型(如Stable Diffusion)的架構割裂,導致跨模態信息傳遞效率低下。BAGEL首創的MoT(Mixture-of-Transformers)架構通過三大創新解決此問題:

1. 模態專家動態路由

模型包含兩個獨立的Transformer專家網路:

理解專家:採用SigLIP2視覺編碼器,支持原生長寬比處理,最高解析980px圖像。其優勢在於捕捉語義細節,例如識別雕塑衣褶的物理褶皺規律。

生成專家:基於FLUX VAE與Rectified Flow擴散框架,通過8倍降採樣保留像素級特徵。當用戶指令涉及材質修改(如「將甜甜圈變為鋁箔材質」)時,該網路精準重構金屬反光屬性。

2. 共享注意力層的無損交互

兩大專家在每個Transformer塊共享自注意力機制,實現文本-圖像的無損上下文交互。對比顯示,傳統外部擴散器方案(如LLaMAFusion)因潛變數壓縮會丟失30%以上空間關係信息,而BAGEL在「多物體位置交換」任務中的準確率提升至78.5%。

3. 廣義因果注意力機制

針對視頻與多圖生成場景,BAGEL設計擴散強制策略(Diffusion Forcing):將連續幀分組並施加相同雜訊水平,在生成當前幀時參考前序幀的雜訊表徵。這使得模型可處理「火星車移動軌跡模擬」等長序列任務,在Koala-36M視頻數據集測試中時序一致性評分達9.2/10。

數據引擎:萬億Token交錯語料庫的構建奧秘

BAGEL的性能根基源於其萬億級訓練數據,其構建邏輯顛覆傳統數據集範式:

1. 多模態交錯數據(Interleaved Data)的核心價值

與傳統圖文配對數據不同,交錯數據保留真實世界模態關聯:

視頻源:45M片段來自MVImgNet 2.0與Koala-36M,經輕量鏡頭檢測與CLIP去重後,提煉幀間動態描述(如「咖啡杯跌落時水面波紋擴散」)

網頁源:20M教程/百科文檔通過兩階段過濾:先由FastText篩選高圖文對齊主題,再用Qwen2.5-VL插入概念支架描述(如在圖片前添加「19世紀蒸汽朋克風格齒輪組件」引導生成)

2. 推理增強數據的創新生產

針對複雜編輯任務,團隊構建50萬思維鏈增強樣本:

自由編輯樣本:基於OmniEdit數據集,要求模型解析「如何將真人照片轉為吉卜力動畫風格」的步驟

概念編輯樣本:從網頁序列提取圖像對,引導VLM生成「將工業設計圖轉化為素描稿」的轉換邏輯

文本到圖像樣本:用模糊指令(如「汽車組成的汽車」)觸發Qwen2.5-72B生成詳細提示詞,再通過FLUX生成目標圖像

這種數據策略使BAGEL在智能編輯基準IntelligentBench上的得分達55.3,遠超Step1X-Edit的14.9。

湧現能力:超越基準測試的創造性突破

隨著訓練規模擴大,BAGEL展現出教科書級的能力湧現現象:

1. 三階段能力解鎖曲線(基於5.2T Token訓練監測)

階段1(<0.68T Token):基礎理解與生成能力成熟,圖文匹配準確率達91%

階段2(1-2.64T Token):經典編輯技能顯現,對象替換任務FID分數降至12.3

階段3(>3.61T Token):智能編輯能力躍升,需世界知識的任務成功率從15%升至45%

2. 思維鏈激發的質變

當啟用「思考模式」時,模型表現發生顛覆性變化:

文本到圖像任務:在WISE常識基準上,添加自我推理步驟使分數從0.52躍至0.70

概念編輯任務:面對「展示汽車內飾」指令,模型先解析「需保持外型連貫性,重點呈現儀錶盤材質與空間布局」,輸出細節完整度提升40%

失敗案例轉化:對初代失敗的「行星水果盤」指令,後期模型通過推理「水果紋理與行星光環的光學兼容性」實現合理生成


位元組跳動公開的進化路線圖揭示下一步方向:

多模態強化學習(RLHF):引入人類反饋優化複雜指令遵循能力

跨模態擴展:集成音頻生成模塊,實現「描述雨聲+生成雨中街景」的聯動創作

實時協作框架:開發插件支持PS/Figma等工具實時響應自然語言指令

當想像力成為唯一生產力:BAGEL模型的意義遠超技術本身:它標誌著視覺創作從「技能依賴型」向「意圖驅動型」的範式轉移。當攝影師不再糾結遮罩邊緣,設計師告別參數調試,教師一鍵生成細胞分裂動畫時,人類創造力終於掙脫工具枷鎖。正如項目負責人Haoqi Fan在論文結語所寫:「我們正從『人適應機器』的時代,邁向『機器理解人』的奇點。」

BAGEL可以在線體驗,可以在官方網站進入 demo,輸入文字進行圖片生成,以及輸入圖片,並進行圖片相關的編輯操作,真正的強大!

https://bagel-ai.org/