順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言

2022年10月11日13:54:43 熱門 1393

近幾年自然語言處理的進展很大程度上都來自於大規模語言模型,每次發布的新模型都將參數量訓練數據量推向新高,同時也會對現有基準排行進行一次屠榜!


比如今年4月Google發布5400億參數的語言模型PaLM(Pathways Language Model)在語言和推理類的一系列測評中成功超越人類,尤其是在few-shot小樣本學習場景下的優異性能,也讓PaLM被認為是下一代語言模型的發展方向。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


同理,視覺語言模型其實也是大力出奇蹟,可以通過提升模型的規模來提升性能。


當然了,如果只是多任務的視覺語言模型,顯然還不是很通用,還得支持多種語言的輸入輸出才行。


最近Google就將PaLM擴展升級成PALI(Pathways Language and Image model),兼具多語言和圖像理解的能力,同時支持100+種語言來執行各種橫跨視覺、語言和多模態圖像和語言應用,如視覺問題回答、圖像說明(image caption)、物體檢測、圖像分類、OCR、文本推理等。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞

論文鏈接:https://arxiv.org/abs/2209.06794


模型的訓練使用的是一個公開的圖像集合,其中包括自動爬取的109種語言的標註,文中也稱之為WebLI數據集。


在WebLI上預訓練的PaLI模型在多個圖像和語言基準上取得了最先進的性能,如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等,也超越了先前模型的多語言視覺描述(multilingual visual captioning)和視覺問答的基準。


模型架構


PALI的目標之一是研究語言視覺模型在性能和規模上的聯繫是否相同,特別是語言-圖像模型的可擴展性(scalability)。


所以模型的架構設計上就很簡單,主要是為了實驗方便,尤其是可重複使用且可擴展。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


模型由一個處理輸入文本的Transformer編碼器和一個生成輸出文本的自回歸Transformer解碼器組成。


在處理圖像時,Transformer編碼器的輸入還包括代表由ViT處理的圖像的視覺詞(visual words)。


PaLI模型的一個關鍵設計是重用,研究人員用之前訓練過的單模態視覺和語言模型(如mT5-XXL和大型ViTs)的權重作為模型的種子,這種重用不僅使單模態訓練的能力得到遷移,而且還能節省計算成本。


模型的視覺組件使用的是迄今為止最大的ViT架構ViT-e,它與18億參數的ViT-G模型具有相同的結構,並使用相同的訓練參數,區別就是擴展為了40億參數


雖然在視覺領域和語言領域都對縮放規律進行了研究,但在視覺和語言的組合模型中對縮放行為的探討較少,擴大視覺骨幹模型的規模可能會導致在分類任務中的收益飽和。


研究人員也進一步證實了這一點,可以觀察到 ViT-e在ImageNet上只比ViT-G好一點,但ViT-e在PaLI的視覺語言任務上有很大的改進。例如,ViT-e在COCO字幕任務上比ViT-G多出近3個CIDEr點。任務上比ViT-G多出3分。這也暗示了未來在視覺語言任務中使用更大的ViT骨架模型的空間。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


研究人員採用mT5骨幹作為語言建模組件,使用預訓練的mT5-Large(10億參數)和mT5-XXL (130億參數)來初始化PaLI的語言編碼器-解碼器,然後在許多語言任務中進行繼續混合訓練,包括純語言理解任務,這也有助於避免災難性的遺忘mT5的語言理解和生成能力。


最後得到了三個不同尺寸的PALI模型。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


109種語言的數據集


深度學習相關的擴展研究表明,模型越大,所需的訓練數據集也越大。


所以為了全面研究和釋放語言-圖像預訓練模型的潛力,研究人員從互聯網上爬取了大量的圖像和文本數據,構建了一個全新的數據集WebLI,其中包括109種語言的120億alt-texts和100億張圖片。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


除了用網路文本進行標註外,研究人員還應用雲端視覺API對圖像進行OCR識別,進而得到290億個圖像-OCR的數據對。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


使用near-duplication對68個常見的視覺和視覺語言數據集的訓練、驗證和測試部分的圖像進行了去重處理,以避免下游評估任務的數據泄露。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


為了進一步提高數據質量,研究人員還會根據「圖像和alt-text」的跨模態相似度進行評分,並調整閾值,最後只保留10%的圖像,總共有10億張圖像用於訓練PaLI


訓練大模型


由於視覺-語言任務是多模態,所以需要模型具有多種語義處理能力,而且會有不同的目標。比如有些任務需要對物體進行局部定位以準確解決任務,而其他一些任務可能需要更多的全局語義信息。


同樣地,有的語言任務可能需要長的答案,而有些則需要緊湊的答案。


為了解決所有這些不一致的目標,研究人員利用WebLI預訓練數據的豐富性,引入預訓練任務的混合(Pretraining Task Mixture),為各種下游應用準備模型。


為了讓模型更通用以解決多種任務,作者將所有的任務歸入一個單一的通用API(輸入:圖像+文本;輸出:文本),使多個圖像和語言任務之間能夠進行知識共享,這也是與預訓練設置的共享。


用於預訓練的目標作為加權的混合被投影到同一個API中,目的是既保持重複使用的模型組件的能力,又能訓練模型執行新的任務。


模型使用開源的T5X和Flaxformer框架在JAX中用Flax進行訓練,視覺部分的ViT-e使用開源的BigVision框架,將語言部分的詞向量與視覺部分生成的patch向量級聯起來,共同作為多模態編碼器-解碼器的輸入,編碼器使用mT5-XXL預訓練初始化。在PaLI的訓練過程中,視覺組件的權重被凍結,只更新多模態編碼器-解碼器的權重。


在實驗部分,研究人員在常見的視覺語言基準上對PaLI進行了比較,且PaLI模型在這些任務上取得了最先進的結果,甚至超過了以往文獻中提出的超大型的模型。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


比如170億參數的PALI在一些VQA和圖像標題任務上的表現優於800億參數的Flamingo模型。


並且PALI在單語言或單視覺的任務上也保持了良好的表現,雖然這並非是PALI主要的訓練目標。


文中還研究了圖像和語言模型組件在模型擴展方面是如何相互作用的,以及模型在哪裡產生最大的收益。


最後得出的結論是,對這兩個組件進行聯合擴展(縮放)會產生最好的性能,具體來說,對需要相對較少參數的視覺組件進行縮放是最關鍵的,同時縮放對於提高多語言任務的性能也很重要。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


在35種語言的基準Crossmodal-3600上評估了PaLI後可以發現多語言起標題任務從PaLI模型的擴展中受益更多。


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


為了避免在大型語言和圖像模型中產生或加強不公平的偏見,需要對所使用的數據和模型如何使用這些數據保持透明,以及測試模型的公平性並進行負責任的數據分析,所以文中同時提供了一個Data Card和Model Card


順手訓一個史上最大ViT?升級視覺語言模型PaLI:支持100+種語言 - 天天要聞


參考資料:

https://ai.googleblog.com/2022/09/pali-scaling-language-image-learning-in.html

熱門分類資訊推薦

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO - 天天要聞

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO

曾小賢的上司Lisa榕,現實中不僅才貌雙全,還嫁給了CEO雖然說《愛情公寓》這部劇在劇情上充滿了爭議,但是一定程度上,這部劇也是很多人的回憶,是伴隨了一代人的青春回憶,而且劇中的很多角色都成為了經典,他們的口頭禪也一直被拿來玩兒梗。
Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了 - 天天要聞

Lisa榕做主持多年沒紅,被陳赫拉進愛情公寓爆紅,如今怎樣了

談到《愛情公寓》這部火爆一時的歡樂喜劇,大家肯定都不陌生。不知道大家是否還記得《愛情公寓》中那個把曾小賢治得服服帖帖的女上司Lisa榕,現實中的她名叫榕榕,和劇中的形象也判若兩人。1981年出生在遼寧瀋陽的榕榕,畢業於上海戲劇學院,後來成為了上海東方傳媒集團有限公司的一名主持人。