豆包升級上新,網友們再次玩瘋!
更新的是豆包文生圖功能,官方直接用一張豆包ai生成的海報給划了重點:
沒錯,豆包可以在圖片中生成更準確的文字了,尤其是中文。
做海報,效果可以是醬嬸的:
給自己的旅遊vlog整點某音某書封面,風格也是直接拿捏。
甚至還能直接拿來設計文旅周邊了…
另外,超長複雜提示詞也能準確get:
關鍵是,免費!現在就能暢玩。
嗯,編輯部已經被表情包by豆包刷屏了
實測豆包文生圖升級
豆包文生圖功能本次升級主要體現在四個方面:
標題大字準確度提升至94%,小字也能準確生成
語義理解和影視質感增強,鏡頭更有敘事感
即使是超長複雜提示詞,也能準確遵循
繪畫風格更多元,可生成頭像、梗圖、盲盒、貼紙、logo
有一說一,在文字生成能力方面,不少模型都是demo美好而實際免不了亂碼。
豆包文生圖新模型究竟表現如何,咱們還是得實測才知道。
正值清明假期,那我們不妨讓它生成一張清明節海報:
prompt:幫我生成一張清明節海報,並配文“清明時節雨紛紛,路上行人慾斷魂”。
從生成的4張圖可以看到,它們都100%正確還原了“清明時節雨紛紛,路上行人慾斷魂”這句文字,而且整體氛圍感比較符合清明節主題。
然鵝,每張圖都或多或少在小字生成方面還是有一些小瑕疵。
那如果嘗試規避其弱點,只是單純用來生成大字海報呢?
prompt:生成一張親子戶外風圖像,僅配文“出發啦”,比例9:16
這次的結果就比較符合要求了,而且偷偷告訴大家一個小注意事項:即使用來生成只有大標題的海報,在提示詞中也盡量避免提到“海報”二字,不然豆包ai就會“自作主張”加一些效果不佳的小字。
接下來我們考一下豆包ai的“鏡頭感”。
prompt:通過特寫鏡頭來捕捉一個運動員在比賽關鍵時刻的緊張表情和汗水。
嗯,不僅高度還原了提示詞,而且看上去真有電影截圖內味兒了
變換各種鏡頭語言,幾乎每張都堪比大片:
展現一個偵探在昏暗的巷子里追蹤嫌疑人,緊張的氣氛和快速的步伐。
而且即使是超長複雜提示詞,豆包ai現在也能精準還原了:
賽博朋克風格的插畫,一位身着高科技服裝的東方女性。她的服飾以深藍為主色調,外觀颯爽,科技感配飾 。頭戴對講耳機,ar眼鏡。背景是暗黑風格,有藍綠色扭曲的樹枝,點綴粉色光斑,營造神秘氛圍。背景中安排幾尊白色人形雕塑,賽博朋克風格建築,環境濕潤。
again,還能來一段更長長長的提示詞:
在保證“壁畫,水彩,地中海風格”的整體基調下,豆包ai生動勾勒了一幅海邊小鎮度假圖。
提示詞中的關鍵元素均在圖中有所展現,整體非常夢幻、chill~
最後當然更吸引網友的是,豆包ai繪圖風格更多元了。
喜歡換頭像的友友,即日起一天一個也不是不行(doge)。
此外,除了文藝復興一些經典老梗,咱們現在也能分分鐘成為“造梗小能手”了:
還能自己動手設計一些復古盲盒:
更多玩法歡迎大家自行解鎖~~
全新升級3.0模型
豆包升級版文生圖功能背後,是全新的3.0模型。
官方尚未透露相關細節,不過就在不久前,豆包大模型團隊首度公開了去年12月上線的seedream 2.0的技術細節——
這個版本的更新,開啟了豆包文生圖的“識字”時代。
seedream走的是擴散模型路線。
豆包大模型團隊透露,為了讓模型既看懂文本,又關注字體字形,他們在數據預處理階段和預訓練階段都下了功夫。
seedream 2.0在數據預處理階段,依靠智能標註引擎實現了三級認知進化,提升了模型理解、識別能力,通過多維度、多層級精準圖片描述,讓模型技能理解文字意思,也能捕捉和理解字形細節。
同時在預訓練中,seedream 2.0構建了雙模態編碼融合系統。其中大語言模型負責解析“文本要表達什麼”,字形模型byt5專註於刻畫“文字應該長什麼樣”。
細節是,通過mlp投影層,將byt5的字形特徵對齊到llm語義空間,二者拼接後輸入擴散模型。此種方法下,字體、顏色、大小、位置等渲染屬性不再依賴預設模板,而是通過llm直接描述文本特徵,進行端到端訓練。這樣,模型既能從訓練數據中學習文本渲染特徵,也可以基於編碼後的渲染特徵,高效學習渲染文本的字形特徵。
btw,這次seedream新模型依然是在豆包和字節旗下ai創作平台即夢ai同步接入,不過即夢還是灰度測試的狀態。
以及同樣的提示詞下,豆包和即夢的風格傾向似乎略有不同。
豆包:
即夢ai:
目前,豆包免費,即夢ai每天會贈送免費積分,感興趣的大家都可以自己上手玩一玩。
有什麼好玩的創意,歡迎在評論區留圖分享啊~
* 本文表情包均由豆包ai生成
豆包:https://www.doubao.com/chat/即夢:https://jimeng.jianying.com/ai-tool/image/generate