谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格

2022年07月05日02:47:18 科技 1105

谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞



近日,谷歌介紹了一種自回歸文本到圖像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可實現高保真照片級圖像輸出,並支持涉及複雜構圖和豐富知識內容的合成。


比如,用文字描述「一隻浣熊穿着正裝,拿着拐杖和垃圾袋」和「老虎戴着火車售票員的帽子,拿着一塊帶有陰陽符號的滑板」,就能分別生成類似如下圖片。



谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞

(來源:谷歌)




除了細節栩栩如生外,對於各種風格,Parti 也是駕輕就熟,能夠根據描述生成梵高、抽象立體主義、埃及墓象形文字、插圖、雕像、木刻、兒童蠟筆畫、中國水墨畫等多種多樣風格的畫作。


6 月 22 日,相關研究論文以《縮放自回歸模型以實現內容豐富的文本到圖像生成》(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)提交在arXiv 上。


研究人員在谷歌官方博文表示:「用 Parti 輸出圖像是一個序列到序列的建模問題,與機器翻譯相似。因此可受益於大語言模型的進步,特別是通過擴展數據和模型大小來解鎖的功能。此外,目標輸出是圖像標記序列,而不是其他語言中的文本標記。並利用圖像分詞器 ViT-VQGAN 將圖像編碼為離散標記序列,以重建成高質量、風格多樣化的圖像。」


值得一提的是,谷歌在一個多月前推出的另一個文本到圖像生成模型 Imagen,在研究基準上也表現得十分亮眼。Parti 和 Imagen 分別是自回歸模型和擴散模型,兩者不同但互補,代表了谷歌的不同探索方向。


此外,研究人員還探索並突出了 Parti 模型的局限性,給出了進一步改進的關鍵示例重點領域。



谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞

(來源:谷歌)




然後,他們還訓練了 3.5 億、7.5 億、30 億和 200 億參數四個版本的 Parti,並將它們進行了詳細比較,參數越大的模型在功能和輸出圖像質量方面有着實質性改進。在比較 30 億和 200 億參數的 Parti 時,發現後者更擅長抽象的提示。


下面是四個模型對「一個綠色的標誌,上面寫着 Very Deep Learning,位於大峽谷的邊緣,天空中有浮起的白雲」圖片生成效果。



谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞

(來源:谷歌)




Parti 要想識別冗長而複雜的提示,需要它準確反映世界知識、遵守特定的圖像格式和樣式,並通過細粒度的細節和交互組成眾多參與者和對象,進而輸出高質量的圖像。但該模型存在的一定局限性,仍會讓其生成一些故障示例。


比如說按照如下文字生成圖像:「一幅阿努比斯雕像的肖像,穿着一件黃色的 T 恤,上面畫著一架穿梭機,背景中有一面白色的磚牆。」輸出的圖像中穿梭機在牆上,而不是 T 恤,顏色也有所滲出。



谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞

圖 | 故障圖像(來源:谷歌)




值得一提的是,本次研究人員還採用一種新的測試基準 PartiPrompts(簡稱 P2),該基準可從各種類別和挑戰方面來衡量模型的能力。



谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞

圖 | PartiPrompts 基準(來源:arXiv)




然後,研究人員表示,用文本生成圖像非常有趣,它允許我們創建從未見過甚至不存在的場景。但這帶來許多益處的同時,也存在一定風險,並對偏見和安全、視覺傳達、虛假信息,以及創造力和藝術產生潛在影響。


此外,一些潛在的風險與模型本身的開發方式有關,對於訓練數據尤其如此。像 Parti 這樣的模型,通常是在嘈雜的圖像文本數據集上進行訓練的。這些數據集已知包含對不同背景的人的偏見,從而導致 Parti 等模型產生刻板印象。比如,在將模型應用於視覺傳達(例如幫助低識字率的社會群體輸出圖片)等用途時,會帶來額外的風險和擔憂。


文本到圖像模型為人們創造了許多新的可能性,本質上是充當畫筆創造獨特且美觀的圖像,可助力提高人類的創造力和生產力。但模型的輸出範圍取決於訓練數據,這可能會偏向西方圖像,並進一步阻止模型表現出全新的藝術風格。


出於以上原因,研究人員在沒有進一步保護措施的情況下,暫時不會發佈 Parti 模型的代碼或數據供公眾使用。並在已生成的所有圖像上添加了「Parti」水印。


接下來,研究團隊將專註於進一步研究模型偏差測量和緩解策略,例如提示濾波、輸出濾波和模型重新校準。


他們還認為,有望使用文本到圖像生成模型來大規模理解大型圖像文本數據集中的偏差,方法是明確探測它們是否存在一套已知的偏差類型,並可能揭示其他形式的隱藏偏差。另外,研究人員還計劃與藝術家合作,使高性能文本到圖像生成模型的功能適應其作品。


最後,相比前段時間 OpenAI 發佈的 DALL·E 2 和谷歌自家的 Imagen(兩者都是擴散模型),研究人員提到,Parti 表明自回歸模型功能強大且普遍適用。


-End-


谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞



參考:

https://parti.research.google/

https://arxiv.org/abs/2206.10789


谷歌發佈文字生成圖像模型,新系統Parti根據文本輸出各種風格 - 天天要聞

科技分類資訊推薦

從聊天機械人到協作夥伴:AI智能體如何重塑企業工作 - 天天要聞

從聊天機械人到協作夥伴:AI智能體如何重塑企業工作

Scott White至今仍對人工智能從新奇技術轉變為真正工作夥伴的速度感到驚嘆。僅僅一年多前,這位Anthropic公司Claude AI產品負責人目睹了早期AI編程工具甚至無法完成一行代碼的窘境。如今,儘管並非專業程序員,他卻能親自構建
小米 16 系列迎最新爆料,Pro 系列鏡頭模組大改,橫向延伸全尺寸設計 - 天天要聞

小米 16 系列迎最新爆料,Pro 系列鏡頭模組大改,橫向延伸全尺寸設計

近日,包括數碼閑聊站在內等多個消息源,就下一代旗艦新機紛紛進行了最新爆料,其中小米 16 系列也在近日迎來了最新消息。根據最新爆料來看,小米 16 系列將會在以往的標準版、Pro 版、Ultra 的基礎上新增一款 Pro Max 型號。但一一對應來看,新款的小米 16 Pro 即對標標準版 , 為大家熟悉的 6.3 英寸小尺寸旗艦機型。而 1...
魅族 22 系列手機本月到來,提供全新開模小尺寸旗艦版本 - 天天要聞

魅族 22 系列手機本月到來,提供全新開模小尺寸旗艦版本

伴隨着時間來到 7 月,各大手機廠商的新機更新計劃有所放緩,不過根據多方爆料來看,「小廠代表」 星紀魅族旗下的魅族 22 系列將會在本月與大家見面。目前魅族 22 系列仍然十分 「神秘」,欠缺主要的配置爆料與外觀圖片作為參考。但根據部分什麼爆料者的消息來看,魅族 22 系列將會全新開模,並提供小尺寸旗艦版本可供選擇...
vivo X300 Pro 更多細節曝光,大 R 角直面屏,新款大底主攝方案加持 - 天天要聞

vivo X300 Pro 更多細節曝光,大 R 角直面屏,新款大底主攝方案加持

今天數碼博主數碼閑聊站在與網友互動中,透露了一款搭載聯發科天璣 9500 的 「大杯」 工程機的最新進展。參考爆料內容與評論區互動來看,預計為 vivo X300 Pro。除搭載聯發科天璣 9500 外,據悉該機一大變化之處在於屏幕部分,根據最新消息來看將會搭載一塊大 R 角直屏,不再採用曲面屏或微曲面屏設計。而這也將成為下一代...
數據驅動,柔性智能建造平台助力高效管理 - 天天要聞

數據驅動,柔性智能建造平台助力高效管理

長沙晚報掌上長沙7月1日訊(全媒體記者 劉嘉)6月30日,由長沙市智能建造產業鏈推進辦公室與中建五局三公司聯合承辦的「創新驅動 智建未來」科技活動舉行。該活動不僅展示了長沙在智能建造領域的創新成果,也為行業高質量發展提供了可複製的實踐經驗。
以前不敢想,機械革命搭配出4959元的RTX5050本,還有2.5K屏 - 天天要聞

以前不敢想,機械革命搭配出4959元的RTX5050本,還有2.5K屏

最近RTX5050本開始大面積登場,很多消費者也想知道,廠商到底能搭配出什麼樣配置?結果機械革命沒有讓大家失望,搭配出一個6199元的新品,補貼後價格4959元,再一次刷新新顯卡筆記本的價格新低。同時,其配置還不是很潦草,還是很平衡的,讓我們來看看。這款本配置了R9 7845HX處理器,12核心,24線程,台積電5nm工藝,Zen4...
中國移動三大核心布局 助力南亞東南亞數字經濟新發展 - 天天要聞

中國移動三大核心布局 助力南亞東南亞數字經濟新發展

【來源:雲南網】6月30日,由雲南省人民政府和雲南省工業和信息化廳聯合舉辦的面向南亞東南亞數字合作推介會在北京舉行,中國移動副總經理陳懷達出席,中國移動數智化部副總經理陶濤發表主題為《建設跨境數據交易高速公路,服務數字信息大通道建設》的演講