順手訓一個史上最大ViT？升級視覺語言模型PaLI：支持100+種語言

2022年10月11日13:54:43 熱門 1393

近幾年自然語言處理的進展很大程度上都來自於大規模語言模型，每次發布的新模型都將參數量、訓練數據量推向新高，同時也會對現有基準排行進行一次屠榜！

比如今年4月，Google發布5400億參數的語言模型PaLM（Pathways Language Model）在語言和推理類的一系列測評中成功超越人類，尤其是在few-shot小樣本學習場景下的優異性能，也讓PaLM被認為是下一代語言模型的發展方向。

同理，視覺語言模型其實也是大力出奇蹟，可以通過提升模型的規模來提升性能。

當然了，如果只是多任務的視覺語言模型，顯然還不是很通用，還得支持多種語言的輸入輸出才行。

最近Google就將PaLM擴展升級成PALI（Pathways Language and Image model），兼具多語言和圖像理解的能力，同時支持100+種語言來執行各種橫跨視覺、語言和多模態圖像和語言應用，如視覺問題回答、圖像說明（image caption）、物體檢測、圖像分類、OCR、文本推理等。

論文鏈接：https://arxiv.org/abs/2209.06794

模型的訓練使用的是一個公開的圖像集合，其中包括自動爬取的109種語言的標註，文中也稱之為WebLI數據集。

在WebLI上預訓練的PaLI模型在多個圖像和語言基準上取得了最先進的性能，如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等，也超越了先前模型的多語言視覺描述（multilingual visual captioning）和視覺問答的基準。

模型架構

PALI的目標之一是研究語言和視覺模型在性能和規模上的聯繫是否相同，特別是語言-圖像模型的可擴展性（scalability）。

所以模型的架構設計上就很簡單，主要是為了實驗方便，尤其是可重複使用且可擴展。

模型由一個處理輸入文本的Transformer編碼器和一個生成輸出文本的自回歸Transformer解碼器組成。

在處理圖像時，Transformer編碼器的輸入還包括代表由ViT處理的圖像的視覺詞（visual words）。

PaLI模型的一個關鍵設計是重用，研究人員用之前訓練過的單模態視覺和語言模型（如mT5-XXL和大型ViTs）的權重作為模型的種子，這種重用不僅使單模態訓練的能力得到遷移，而且還能節省計算成本。

模型的視覺組件使用的是迄今為止最大的ViT架構ViT-e，它與18億參數的ViT-G模型具有相同的結構，並使用相同的訓練參數，區別就是擴展為了40億參數。

雖然在視覺領域和語言領域都對縮放規律進行了研究，但在視覺和語言的組合模型中對縮放行為的探討較少，擴大視覺骨幹模型的規模可能會導致在分類任務中的收益飽和。

研究人員也進一步證實了這一點，可以觀察到 ViT-e在ImageNet上只比ViT-G好一點，但ViT-e在PaLI的視覺語言任務上有很大的改進。例如，ViT-e在COCO字幕任務上比ViT-G多出近3個CIDEr點。任務上比ViT-G多出3分。這也暗示了未來在視覺語言任務中使用更大的ViT骨架模型的空間。

研究人員採用mT5骨幹作為語言建模組件，使用預訓練的mT5-Large（10億參數）和mT5-XXL (130億參數)來初始化PaLI的語言編碼器-解碼器，然後在許多語言任務中進行繼續混合訓練，包括純語言理解任務，這也有助於避免災難性的遺忘mT5的語言理解和生成能力。

最後得到了三個不同尺寸的PALI模型。

109種語言的數據集

深度學習相關的擴展研究表明，模型越大，所需的訓練數據集也越大。

所以為了全面研究和釋放語言-圖像預訓練模型的潛力，研究人員從互聯網上爬取了大量的圖像和文本數據，構建了一個全新的數據集WebLI，其中包括109種語言的120億alt-texts和100億張圖片。

除了用網路文本進行標註外，研究人員還應用雲端視覺API對圖像進行OCR識別，進而得到290億個圖像-OCR的數據對。

使用near-duplication對68個常見的視覺和視覺語言數據集的訓練、驗證和測試部分的圖像進行了去重處理，以避免下游評估任務的數據泄露。

為了進一步提高數據質量，研究人員還會根據「圖像和alt-text」的跨模態相似度進行評分，並調整閾值，最後只保留10%的圖像，總共有10億張圖像用於訓練PaLI

訓練大模型

由於視覺-語言任務是多模態，所以需要模型具有多種語義處理能力，而且會有不同的目標。比如有些任務需要對物體進行局部定位以準確解決任務，而其他一些任務可能需要更多的全局語義信息。

同樣地，有的語言任務可能需要長的答案，而有些則需要緊湊的答案。

為了解決所有這些不一致的目標，研究人員利用WebLI預訓練數據的豐富性，引入預訓練任務的混合（Pretraining Task Mixture），為各種下游應用準備模型。

為了讓模型更通用以解決多種任務，作者將所有的任務歸入一個單一的通用API（輸入：圖像+文本；輸出：文本），使多個圖像和語言任務之間能夠進行知識共享，這也是與預訓練設置的共享。

用於預訓練的目標作為加權的混合被投影到同一個API中，目的是既保持重複使用的模型組件的能力，又能訓練模型執行新的任務。

模型使用開源的T5X和Flaxformer框架在JAX中用Flax進行訓練，視覺部分的ViT-e使用開源的BigVision框架，將語言部分的詞向量與視覺部分生成的patch向量級聯起來，共同作為多模態編碼器-解碼器的輸入，編碼器使用mT5-XXL預訓練初始化。在PaLI的訓練過程中，視覺組件的權重被凍結，只更新多模態編碼器-解碼器的權重。

在實驗部分，研究人員在常見的視覺語言基準上對PaLI進行了比較，且PaLI模型在這些任務上取得了最先進的結果，甚至超過了以往文獻中提出的超大型的模型。