位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有

2025年06月17日07:22:04 科技 1670

人工智慧開始理解「將雕像背景換成櫻花季,但保留大理石紋理」這樣的複雜指令時,視覺創作領域正迎來一場靜默革命。位元組跳動Seed團隊發布開源多模態基礎模型BAGEL首次在統一架構中實現理解與生成能力的協同進化

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

Seed團隊推出的開源多模態基礎模型,擁有7B活躍參數(總量14B),核心突破在於:

  • 全能選手:同時精通圖像理解、文本生成、自由編輯、3D操作、視頻預測
  • 性能屠榜:超越Qwen2.5-VL、InternVL-2.5等開源模型,圖像生成質量媲美SD3
  • 思維鏈推理:首創「先思考再生成」模式,解決複雜指令如「展示蛋糕裝飾後的效果
  • 已經在 hugging face 上面開源,且提供了 demo 試用,且免費

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

BAGEL模型是一個多模態模型,不僅支持文本圖片生成,還可以根據用戶的描述來修改圖片內容或者圖片風格轉換。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

而且BAGEL模型在進行回答前,還會進行深度思考,重點考慮用戶輸入的內容,並針對自己的理解進行思考,確保能夠正確理解用戶的需求。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

BAGEL多模態模型引用了大語言模型的思考鏈模式,用戶可以從回答上,清楚的看到BAGEL模型的思考過程。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

當然BAGEL模型除了能夠生成圖片外,還可以針對某個圖片進行交流,可以根據用戶輸入的圖片進行識別,並回答用戶提問的關於圖片的問題等等。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

BAGEL模型可以針對用戶輸入的圖片進行圖片的編輯,比如修改圖片的風格,一句話讓模型修改圖片成卡通樣式。當年運行 pyhton 腳本,修改圖片成卡通樣式,花了小編不少的功夫,現在就需要一句話。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

當然更別說,圖片上色,圖片清晰度增加,人臉識別並增加口罩等等操作,BAGEL模型都不在話下。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

當然你也可以讓模型多輸出幾張圖片,並進行連貫起來,生成動態的視頻,BAGEL模型還可以生成圖片的3D模型,這樣直接就可以列印出來 3D 效果的手辦了。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

突破性架構:雙專家系統的共生進化

傳統多模態模型面臨的核心矛盾在於:理解模型(如CLIP)與生成模型(如Stable Diffusion)的架構割裂,導致跨模態信息傳遞效率低下。BAGEL首創的MoT(Mixture-of-Transformers)架構通過三大創新解決此問題:

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

1. 模態專家動態路由

模型包含兩個獨立的Transformer專家網路:

理解專家:採用SigLIP2視覺編碼器,支持原生長寬比處理,最高解析980px圖像。其優勢在於捕捉語義細節,例如識別雕塑衣褶的物理褶皺規律。

生成專家:基於FLUX VAE與Rectified Flow擴散框架,通過8倍降採樣保留像素級特徵。當用戶指令涉及材質修改(如「將甜甜圈變為鋁箔材質」)時,該網路精準重構金屬反光屬性。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

2. 共享注意力層的無損交互

兩大專家在每個Transformer塊共享自注意力機制,實現文本-圖像的無損上下文交互。對比顯示,傳統外部擴散器方案(如LLaMAFusion)因潛變數壓縮會丟失30%以上空間關係信息,而BAGEL在「多物體位置交換」任務中的準確率提升至78.5%。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

3. 廣義因果注意力機制

針對視頻與多圖生成場景,BAGEL設計擴散強制策略(Diffusion Forcing):將連續幀分組並施加相同雜訊水平,在生成當前幀時參考前序幀的雜訊表徵。這使得模型可處理「火星車移動軌跡模擬」等長序列任務,在Koala-36M視頻數據集測試中時序一致性評分達9.2/10。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

數據引擎:萬億Token交錯語料庫的構建奧秘

BAGEL的性能根基源於其萬億級訓練數據,其構建邏輯顛覆傳統數據集範式:

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

1. 多模態交錯數據(Interleaved Data)的核心價值

與傳統圖文配對數據不同,交錯數據保留真實世界模態關聯:

視頻源:45M片段來自MVImgNet 2.0與Koala-36M,經輕量鏡頭檢測與CLIP去重後,提煉幀間動態描述(如「咖啡杯跌落時水面波紋擴散」)

網頁源:20M教程/百科文檔通過兩階段過濾:先由FastText篩選高圖文對齊主題,再用Qwen2.5-VL插入概念支架描述(如在圖片前添加「19世紀蒸汽朋克風格齒輪組件」引導生成)

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

2. 推理增強數據的創新生產

針對複雜編輯任務,團隊構建50萬思維鏈增強樣本:

自由編輯樣本:基於OmniEdit數據集,要求模型解析「如何將真人照片轉為吉卜力動畫風格」的步驟

概念編輯樣本:從網頁序列提取圖像對,引導VLM生成「將工業設計圖轉化為素描稿」的轉換邏輯

文本到圖像樣本:用模糊指令(如「汽車組成的汽車」)觸發Qwen2.5-72B生成詳細提示詞,再通過FLUX生成目標圖像

這種數據策略使BAGEL在智能編輯基準IntelligentBench上的得分達55.3,遠超Step1X-Edit的14.9。

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

湧現能力:超越基準測試的創造性突破

隨著訓練規模擴大,BAGEL展現出教科書級的能力湧現現象:

1. 三階段能力解鎖曲線(基於5.2T Token訓練監測)

階段1(<0.68T Token):基礎理解與生成能力成熟,圖文匹配準確率達91%

階段2(1-2.64T Token):經典編輯技能顯現,對象替換任務FID分數降至12.3

階段3(>3.61T Token):智能編輯能力躍升,需世界知識的任務成功率從15%升至45%

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

2. 思維鏈激發的質變

當啟用「思考模式」時,模型表現發生顛覆性變化:

文本到圖像任務:在WISE常識基準上,添加自我推理步驟使分數從0.52躍至0.70

概念編輯任務:面對「展示汽車內飾」指令,模型先解析「需保持外型連貫性,重點呈現儀錶盤材質與空間布局」,輸出細節完整度提升40%

失敗案例轉化:對初代失敗的「行星水果盤」指令,後期模型通過推理「水果紋理與行星光環的光學兼容性」實現合理生成


位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

位元組跳動公開的進化路線圖揭示下一步方向:

多模態強化學習(RLHF):引入人類反饋優化複雜指令遵循能力

跨模態擴展:集成音頻生成模塊,實現「描述雨聲+生成雨中街景」的聯動創作

實時協作框架:開發插件支持PS/Figma等工具實時響應自然語言指令

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

當想像力成為唯一生產力:BAGEL模型的意義遠超技術本身:它標誌著視覺創作從「技能依賴型」向「意圖驅動型」的範式轉移。當攝影師不再糾結遮罩邊緣,設計師告別參數調試,教師一鍵生成細胞分裂動畫時,人類創造力終於掙脫工具枷鎖。正如項目負責人Haoqi Fan在論文結語所寫:「我們正從『人適應機器』的時代,邁向『機器理解人』的奇點。」

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

BAGEL可以在線體驗,可以在官方網站進入 demo,輸入文字進行圖片生成,以及輸入圖片,並進行圖片相關的編輯操作,真正的強大!

位元組跳動開源BAGEL:自由編輯圖片,生成視頻、3D建模,應有盡有 - 天天要聞

https://bagel-ai.org/

科技分類資訊推薦

台州學院「智方同源」團隊:以數智科技賦能傳統葯食同源 - 天天要聞

台州學院「智方同源」團隊:以數智科技賦能傳統葯食同源

在台州學院創業學院的鼎力支持與浙江省生態學保護重點實驗室的科研支撐下,台州學院「智方同源」學生團隊應運而生。該團隊聚焦於葯食同源領域,創新性地將大數據分析與人工智慧技術深度融入功能食品配方設計,首創傳統食療配方圖神經分析技術、食品配方成分-功效網路模塊互作評價方法和口感預測卷積神經網路分析技術,致力...
S11晶元+5G加持!Apple Watch Ultra 3今年登場? - 天天要聞

S11晶元+5G加持!Apple Watch Ultra 3今年登場?

日前,分析師 Jeff Pu在一份關於蘋果2025年的產品規劃路線圖裡提到,除了新款 Apple Watch Series 11,今年蘋果也將推出大家都十分關注的新款智能手錶 Apple Watch Ultra 3。屆時 Apple Watch Series 11以及 Apple Watch Ultra 3這兩款新手將會和期待已久的 iPhone 17 系列
以伊衝突還在打,市場卻已經翻篇了! - 天天要聞

以伊衝突還在打,市場卻已經翻篇了!

本周一的交易數據講述了一個令人震驚的故事。就在以色列和伊朗兩國持續相互攻擊之際,黃金價格下跌,美債收益率上升,股市波動率暴跌。股票相對於長期債券的表現達到了特朗普就職日以來的最強水平。這些都是典型的"風險開啟"環境信號。以色列攻擊伊朗核設施長期以來被視為可能嚴重惡化全球風險環境的"終極事件",然而,油價...
人民日報盛讚華為、C919以及DeepSeek - 天天要聞

人民日報盛讚華為、C919以及DeepSeek

【TechWeb】據今日《人民日報》報道,無論是中小型企業還是科技行業的領軍巨頭,都在不斷的實踐與探索中凝練出了一條共通的發展真理:持之以恆,沉得住氣。面對外界的封鎖與壓力,華為公司逆境而上,推出了具有突破性的麒麟系列晶元,並自主研發了鴻蒙操作系統,這些新產品在全球市場上實現了重要突破。華為創始人任正非表...
Polyphony Digital於6月7日發布小米和Gran Turismo的合作 - 天天要聞

Polyphony Digital於6月7日發布小米和Gran Turismo的合作

總部在中國北京的小米,2021年宣布加入智能電動汽車行業,2024年發售自己的第一個量產電車SU7。旗艦車型SU7 Ultra,擁有1548匹馬力驚人的性能。並且以挑戰紐北北圈記錄為目標開發的SU7 Ultra原型車,以6分46秒874打破了4門車在紐北的圈速記錄,在世界上受到車迷的廣泛關注。小米在接下來,將會與Gran Turismo 一起製作Visi..
網易雲VIP突然宣布免費,還不領就來不及了 - 天天要聞

網易雲VIP突然宣布免費,還不領就來不及了

聽勸的風,再次吹到了網易雲音樂身上。一直以來,網易雲和QQ音樂上的平板端適配,都是平板用戶們重點關注的話題。此前網易雲在安卓平板上,已經完成了比較成熟的大屏適配。可在iPad端上,機哥從2024年等到今年年中,還是等不到它的出現。直到這兩天
數據中心告別「燙手晶元」 曙光數創推出全生命周期液冷解決方案 - 天天要聞

數據中心告別「燙手晶元」 曙光數創推出全生命周期液冷解決方案

IT時報記者 郝俊慧面對越來越「熱」的算力晶元,曙光數創正想讓它快點「冷」下來。在剛剛結束的2025中國智算中心全棧技術大會上,曙光數創發布「新服務、新技術、新架構」三大新品,旨在通過一體化、全生命周期的服務新範式,解決當前液冷行業面臨的諸多痛點。「液冷即服務,這個概念在行業里早就有需求了。」曙光數創副總...