位元組跳動開源BAGEL：自由編輯圖片，生成視頻、3D建模，應有盡有

2025年06月17日07:22:04 科技 1670

當人工智慧開始理解「將雕像背景換成櫻花季，但保留大理石紋理」這樣的複雜指令時，視覺創作領域正迎來一場靜默革命。位元組跳動Seed團隊發布開源多模態基礎模型BAGEL首次在統一架構中實現理解與生成能力的協同進化。

Seed團隊推出的開源多模態基礎模型，擁有7B活躍參數（總量14B），核心突破在於：

全能選手：同時精通圖像理解、文本生成、自由編輯、3D操作、視頻預測
性能屠榜：超越Qwen2.5-VL、InternVL-2.5等開源模型，圖像生成質量媲美SD3
思維鏈推理：首創「先思考再生成」模式，解決複雜指令如「展示蛋糕裝飾後的效果
已經在 hugging face 上面開源，且提供了 demo 試用，且免費

BAGEL模型是一個多模態模型，不僅支持文本圖片生成，還可以根據用戶的描述來修改圖片內容或者圖片風格轉換。

而且BAGEL模型在進行回答前，還會進行深度思考，重點考慮用戶輸入的內容，並針對自己的理解進行思考，確保能夠正確理解用戶的需求。

BAGEL多模態模型引用了大語言模型的思考鏈模式，用戶可以從回答上，清楚的看到BAGEL模型的思考過程。

當然BAGEL模型除了能夠生成圖片外，還可以針對某個圖片進行交流，可以根據用戶輸入的圖片進行識別，並回答用戶提問的關於圖片的問題等等。

BAGEL模型可以針對用戶輸入的圖片進行圖片的編輯，比如修改圖片的風格，一句話讓模型修改圖片成卡通樣式。當年運行 pyhton 腳本，修改圖片成卡通樣式，花了小編不少的功夫，現在就需要一句話。

當然更別說，圖片上色，圖片清晰度增加，人臉識別並增加口罩等等操作，BAGEL模型都不在話下。

當然你也可以讓模型多輸出幾張圖片，並進行連貫起來，生成動態的視頻，BAGEL模型還可以生成圖片的3D模型，這樣直接就可以列印出來 3D 效果的手辦了。

突破性架構：雙專家系統的共生進化

傳統多模態模型面臨的核心矛盾在於：理解模型（如CLIP）與生成模型（如Stable Diffusion）的架構割裂，導致跨模態信息傳遞效率低下。BAGEL首創的MoT（Mixture-of-Transformers）架構通過三大創新解決此問題：

1. 模態專家動態路由

模型包含兩個獨立的Transformer專家網路：

理解專家：採用SigLIP2視覺編碼器，支持原生長寬比處理，最高解析980px圖像。其優勢在於捕捉語義細節，例如識別雕塑衣褶的物理褶皺規律。

生成專家：基於FLUX VAE與Rectified Flow擴散框架，通過8倍降採樣保留像素級特徵。當用戶指令涉及材質修改（如「將甜甜圈變為鋁箔材質」）時，該網路精準重構金屬反光屬性。

2. 共享注意力層的無損交互

兩大專家在每個Transformer塊共享自注意力機制，實現文本-圖像的無損上下文交互。對比顯示，傳統外部擴散器方案（如LLaMAFusion）因潛變數壓縮會丟失30%以上空間關係信息，而BAGEL在「多物體位置交換」任務中的準確率提升至78.5%。

3. 廣義因果注意力機制

針對視頻與多圖生成場景，BAGEL設計擴散強制策略（Diffusion Forcing）：將連續幀分組並施加相同雜訊水平，在生成當前幀時參考前序幀的雜訊表徵。這使得模型可處理「火星車移動軌跡模擬」等長序列任務，在Koala-36M視頻數據集測試中時序一致性評分達9.2/10。

數據引擎：萬億Token交錯語料庫的構建奧秘

BAGEL的性能根基源於其萬億級訓練數據，其構建邏輯顛覆傳統數據集範式：

1. 多模態交錯數據（Interleaved Data）的核心價值

與傳統圖文配對數據不同，交錯數據保留真實世界模態關聯：

視頻源：45M片段來自MVImgNet 2.0與Koala-36M，經輕量鏡頭檢測與CLIP去重後，提煉幀間動態描述（如「咖啡杯跌落時水面波紋擴散」）

網頁源：20M教程/百科文檔通過兩階段過濾：先由FastText篩選高圖文對齊主題，再用Qwen2.5-VL插入概念支架描述（如在圖片前添加「19世紀蒸汽朋克風格齒輪組件」引導生成）

2. 推理增強數據的創新生產

針對複雜編輯任務，團隊構建50萬思維鏈增強樣本：

自由編輯樣本：基於OmniEdit數據集，要求模型解析「如何將真人照片轉為吉卜力動畫風格」的步驟

概念編輯樣本：從網頁序列提取圖像對，引導VLM生成「將工業設計圖轉化為素描稿」的轉換邏輯

文本到圖像樣本：用模糊指令（如「汽車組成的汽車」）觸發Qwen2.5-72B生成詳細提示詞，再通過FLUX生成目標圖像

這種數據策略使BAGEL在智能編輯基準IntelligentBench上的得分達55.3，遠超Step1X-Edit的14.9。

湧現能力：超越基準測試的創造性突破

隨著訓練規模擴大，BAGEL展現出教科書級的能力湧現現象：

1. 三階段能力解鎖曲線（基於5.2T Token訓練監測）

階段1（<0.68T Token）：基礎理解與生成能力成熟，圖文匹配準確率達91%

階段2（1-2.64T Token）：經典編輯技能顯現，對象替換任務FID分數降至12.3

階段3（>3.61T Token）：智能編輯能力躍升，需世界知識的任務成功率從15%升至45%

2. 思維鏈激發的質變

當啟用「思考模式」時，模型表現發生顛覆性變化：

文本到圖像任務：在WISE常識基準上，添加自我推理步驟使分數從0.52躍至0.70

概念編輯任務：面對「展示汽車內飾」指令，模型先解析「需保持外型連貫性，重點呈現儀錶盤材質與空間布局」，輸出細節完整度提升40%

失敗案例轉化：對初代失敗的「行星水果盤」指令，後期模型通過推理「水果紋理與行星光環的光學兼容性」實現合理生成

位元組跳動公開的進化路線圖揭示下一步方向：

多模態強化學習（RLHF）：引入人類反饋優化複雜指令遵循能力

跨模態擴展：集成音頻生成模塊，實現「描述雨聲+生成雨中街景」的聯動創作

實時協作框架：開發插件支持PS/Figma等工具實時響應自然語言指令

當想像力成為唯一生產力：BAGEL模型的意義遠超技術本身：它標誌著視覺創作從「技能依賴型」向「意圖驅動型」的範式轉移。當攝影師不再糾結遮罩邊緣，設計師告別參數調試，教師一鍵生成細胞分裂動畫時，人類創造力終於掙脫工具枷鎖。正如項目負責人Haoqi Fan在論文結語所寫：「我們正從『人適應機器』的時代，邁向『機器理解人』的奇點。」