谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像

2022年07月05日01:14:18 科技 1871

近日,谷歌介紹了一種自回歸文本到圖像生成模型 Parti(Pathways Autoregressive Text-to-Image model),可實現高保真照片級圖像輸出,並支持涉及複雜構圖和豐富知識內容的合成。

比如,用文字描述「一隻浣熊穿著正裝,拿著拐杖和垃圾袋」和「老虎戴著火車售票員的帽子,拿著一塊帶有陰陽符號的滑板」,就能分別生成類似如下圖片。

谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像 - 天天要聞

(來源:谷歌)

除了細節栩栩如生外,對於各種風格,Parti 也是駕輕就熟,能夠根據描述生成梵高、抽象立體主義、埃及墓象形文字、插圖、雕像、木刻、兒童蠟筆畫、中國水墨畫等多種多樣風格的畫作。

6 月 22 日,相關研究論文以《縮放自回歸模型以實現內容豐富的文本到圖像生成》(Scaling Autoregressive Models for Content-Rich Text-to-Image Generation)提交在 arXiv 上。

研究人員在谷歌官方博文表示:「用 Parti 輸出圖像是一個序列到序列的建模問題,與機器翻譯相似。因此可受益於大語言模型的進步,特別是通過擴展數據和模型大小來解鎖的功能。此外,目標輸出是圖像標記序列,而不是其他語言中的文本標記。並利用圖像分詞器 ViT-VQGAN 將圖像編碼為離散標記序列,以重建成高質量、風格多樣化的圖像。」

值得一提的是,谷歌在一個多月前推出的另一個文本到圖像生成模型 Imagen,在研究基準上也表現得十分亮眼。Parti 和 Imagen 分別是自回歸模型和擴散模型,兩者不同但互補,代表了谷歌的不同探索方向。

此外,研究人員還探索並突出了 Parti 模型的局限性,給出了進一步改進的關鍵示例重點領域。

谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像 - 天天要聞

(來源:谷歌)

然後,他們還訓練了 3.5 億、7.5 億、30 億和 200 億參數四個版本的 Parti,並將它們進行了詳細比較,參數越大的模型在功能和輸出圖像質量方面有著實質性改進。在比較 30 億和 200 億參數的 Parti 時,發現後者更擅長抽象的提示。

下面是四個模型對「一個綠色的標誌,上面寫著 Very Deep Learning,位於大峽谷的邊緣,天空中有浮起的白雲」圖片生成效果。

谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像 - 天天要聞

(來源:谷歌)

Parti 要想識別冗長而複雜的提示,需要它準確反映世界知識、遵守特定的圖像格式和樣式,並通過細粒度的細節和交互組成眾多參與者和對象,進而輸出高質量的圖像。但該模型存在的一定局限性,仍會讓其生成一些故障示例。

比如說按照如下文字生成圖像:「一幅阿努比斯雕像的肖像,穿著一件黃色的 T 恤,上面畫著一架太空梭,背景中有一面白色的磚牆。」輸出的圖像中太空梭在牆上,而不是 T 恤,顏色也有所滲出。

谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像 - 天天要聞

圖 | 故障圖像(來源:谷歌)

值得一提的是,本次研究人員還採用一種新的測試基準 PartiPrompts(簡稱 P2),該基準可從各種類別和挑戰方面來衡量模型的能力。

谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像 - 天天要聞

圖 | PartiPrompts 基準(來源:arXiv)

然後,研究人員表示,用文本生成圖像非常有趣,它允許我們創建從未見過甚至不存在的場景。但這帶來許多益處的同時,也存在一定風險,並對偏見和安全、視覺傳達、虛假信息,以及創造力和藝術產生潛在影響。

此外,一些潛在的風險與模型本身的開發方式有關,對於訓練數據尤其如此。像 Parti 這樣的模型,通常是在嘈雜的圖像文本數據集上進行訓練的。這些數據集已知包含對不同背景的人的偏見,從而導致 Parti 等模型產生刻板印象。比如,在將模型應用於視覺傳達(例如幫助低識字率的社會群體輸出圖片)等用途時,會帶來額外的風險和擔憂。

文本到圖像模型為人們創造了許多新的可能性,本質上是充當畫筆創造獨特且美觀的圖像,可助力提高人類的創造力和生產力。但模型的輸出範圍取決於訓練數據,這可能會偏向西方圖像,並進一步阻止模型表現出全新的藝術風格。

出於以上原因,研究人員在沒有進一步保護措施的情況下,暫時不會發布 Parti 模型的代碼或數據供公眾使用。並在已生成的所有圖像上添加了「Parti」水印。

接下來,研究團隊將專註於進一步研究模型偏差測量和緩解策略,例如提示濾波、輸出濾波和模型重新校準。

他們還認為,有望使用文本到圖像生成模型來大規模理解大型圖像文本數據集中的偏差,方法是明確探測它們是否存在一套已知的偏差類型,並可能揭示其他形式的隱藏偏差。另外,研究人員還計劃與藝術家合作,使高性能文本到圖像生成模型的功能適應其作品。

最後,相比前段時間 OpenAI 發布的 DALL·E 2 和谷歌自家的 Imagen(兩者都是擴散模型),研究人員提到,Parti 表明自回歸模型功能強大且普遍適用。

-End-

參考:

https://parti.research.google/

https://arxiv.org/abs/2206.10789

谷歌再次發布文字生成圖像模型,新系統Parti根據文本輸出各種風格、更高質量圖像 - 天天要聞

科技分類資訊推薦

蘋果宣布macOS 15 Sequoia將取消雙倍存儲空間要求 - 天天要聞

蘋果宣布macOS 15 Sequoia將取消雙倍存儲空間要求

【環球網科技綜合報道】6月26日消息,蘋果公司近日更新了其支持文檔,宣布從即將推出的macOS 15 Sequoia系統開始,下載和安裝應用程序將不再需要雙倍的本地可用存儲空間。這一變化將大大改善用戶在安裝大型應用程序,尤其是大型遊戲時的體
蘋果發布全系列AirPods及Beats耳機固件更新 - 天天要聞

蘋果發布全系列AirPods及Beats耳機固件更新

【環球網科技綜合報道】6月26日消息,蘋果公司今日宣布為其多款音頻產品推出固件更新,涵蓋了從AirPods Pro 2到Beats Fit Pro的多個型號。此次更新旨在提升用戶體驗,通過錯誤修復和其他改進來增強設備的性能和穩定性。
7月首款新機官宣:7月3日,正式發布 - 天天要聞

7月首款新機官宣:7月3日,正式發布

大家好!這是屬於我們的時刻!通過各種秘密渠道獲悉,7月3日將迎來一次科技界的巨變。一款備受期待、始料未及的首款新機即將橫空出世!相信你們的心都在狂跳不已,對吧?別急,我來告訴你們一切,使你們更加心潮澎湃!超強性能,攪動市場炫酷外觀,驚艷至極
Counterpoint 發 618 手機戰報:華為同比增42.4%、vivo 增 12.6% - 天天要聞

Counterpoint 發 618 手機戰報:華為同比增42.4%、vivo 增 12.6%

IT之家 6 月 26 日消息,市場調查機構 Counterpoint Research 昨日發布報告,表示 618 購物節期間(2024 年第 21 周至第 24 周),中國智能手機銷量同比增長 6.8%。今年的 618 購物節從 5 月 20 日持續到 6 月 20 日,持續時間比往年更長,IT之家簡要介紹下各家手機廠商的情況如下:華為主要得益於市場對其
上海機場貨郵吞吐中11%是跨境電商貨,「帶電」和美妝類,收運方式有突破 - 天天要聞

上海機場貨郵吞吐中11%是跨境電商貨,「帶電」和美妝類,收運方式有突破

對「帶電」(指含鋰電池的貨物如藍牙耳機等)、美妝等跨境電商貨物,上海機場口岸正式開啟便利化收運方式,以助力貨物高效出口。日前,東航物流CK223航班搭載著70噸跨境電商貨物自浦東機場起飛,前往美國洛杉磯,成為首個享受該便利舉措的航班。隨後,又有卡達航空、長榮航空等中外航司,攜「帶電」貨物陸續出運。中外航...
除塵耐磨彎頭基礎知識 - 天天要聞

除塵耐磨彎頭基礎知識

除塵耐磨彎頭是專為工業除塵系統設計的一種特殊管道配件,其主要特點是具有極高的耐磨性,以適應高磨損環境,如鋼鐵廠、水泥廠和燃煤發電廠的粉塵輸送系統。
一「探」到底,江鈴大道敢探者帶你探秘未知! - 天天要聞

一「探」到底,江鈴大道敢探者帶你探秘未知!

隨著夏日腳步的加快,涼爽的微風和燦爛的陽光為熱衷戶外探險的心靈注入了新的活力。秉持著夏日探險的激情,江鈴大道敢探者,這款傑出的硬核跨界大皮卡,憑藉其卓越的性能和華麗的配置,一經推出,便迅速成為越野愛好者與汽車消費者關注的焦點。