Meta AI發布圖音文大一統模型Data2vec,CV精度超MAE

2022年10月28日23:49:08 熱門 1515

行早發自凹非寺
量子位 | 公眾號 QbitAI

Meta AI搞了一個大一統的自監督學習模型Data2vec。

怎麼個大一統法？

圖像、語音、文本都可以處理，效果還都不錯，在CV方面甚至超過了包括MAE、MaskFeat在內的一眾模型。

這是怎麼做到的？我們來看看Data2vec的思路和結構。

Data2vec如何統一圖音文

關於這個問題，我們可以從模型名字中看出一些端倪。

和Word2vec把詞轉化為可計算的向量類似，Data2vec會把不同類型的數據都轉化為同一種形式的數據序列。

這樣就成功避開了模態不同這個問題。

然後，再用自監督學習的方法遮住這些數據的一部分，通過訓練讓模型把遮住的部分還原。

而它的結構也是在這個思路上設計的。

Data2vec以Transformer架構為基礎，設計了一個教師-學生網絡結構：

從上圖中可以看出，無論對於任何形式的輸入，都先轉化為數據序列，並mask一部分信息（或擋住狗頭，或覆蓋一段語音，或遮住一個單詞）。

然後讓學生網絡通過部分可見的輸入去預測完整輸入，再由教師網絡去調整，達到一個模型處理多任務的效果。

那接下來的問題就是如何把不同類型的輸入都轉化為同一種形式了。

Data2vec如何標準化輸入數據

在標準化輸入這一塊，Data2vec還是具體問題具體分析的。

畢竟像素、波形和文本是完全不同的形式，而Data2vec對不同形式的輸入採用了不同的編碼策略，但是目的都是一樣的。

那就是將這些輸入都轉化為數據序列。

具體的操作方法是這樣的：

任務
編碼方式
掩碼方式
計算機視覺
ViT圖像分塊
Block-wise Masking Strategy
語音
多層一維卷積神經網絡
Mask spans of latent speech representation
文本
預處理獲得子詞單元，然後通過嵌入向量將其嵌入分布空間
Tokens

其中ViT的編碼策略就是把一張圖分成一系列的圖塊，每個圖塊有16x16個像素，然後輸入到一個線性變換系統中。

而語音的編碼方式是用多層的一維卷積神經網絡將16kHz的波形轉換為50Hz的一串數據序列。

再加上文本編碼的嵌入向量，這樣所有模態的輸入都轉換為了數據序列，方便後續的訓練。

而對於掩碼策略來說，不同的模態的表現形式也是不一樣的。

例如圖像可以遮住一塊，但是語音和文本有上下文的關聯，不能隨便遮住一部分。

因此對不同的模態，Data2vec也採取了相應的符合不同數據特徵的掩碼方式。

這樣標準化之後，Data2vec還針對不同的下游任務做了一些微調，其中語音和文本的模型已經在GitHub上放出，視覺模型也正在路上：

我們來看看這統一的模型性能怎麼樣。

性能表現

雖然Data2vec三手齊抓，但是性能也沒落下。

在計算機視覺方面，在IN1K上預訓練情況如下表所示：

和一些其他模型相比，Data2vec精度表現最好。而且Data2vec只訓練了800個epochs，而表中的MAE，MaskFeat訓練了1600個epochs。

看柱狀圖則更為明顯，藍色為Data2vec：

在語音處理方面，在LS-960上預訓練結果如下：

可以看出，Data2vec在不同的標籤數據量下單詞錯誤率都比wav2vec2.0和HuBERT要低。

在GLUE評估中，Data2vec在自然語言推理（MNLI、QNLI、RTE），句子相似性（MRPC、QQP、STS-B），語法（CoLA）和情緒分析（SST）等指標中和RoBERTa不相上下。

其中Baseline這一條是RoBERTa在和BERT類似的設置中的訓練結果：

總體評分也差不多：

這麼看來，統一的模型架構真的可以有效地用於多種任務模式。

雖然Data2vec在輸入數據和掩碼方式上還是按照不同的方法來處理，但是它仍然是探索模型統一的嘗試。

或許將來會有統一的掩碼策略和不同模態數據的混合數據集，做到真正的大一統。

參考鏈接：

[1]https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
[2]https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text
[3]https://github.com/pytorch/fairseq/tree/main/examples/data2vec

熱門

7月13日——2023年全球半導體設備銷售額預降18.6%；汽車IC短缺顯著改善未來不太可能出現過剩 - 天天要聞

7月13日——2023年全球半導體設備銷售額預降18.6%；汽車IC短缺顯著改善未來不太可能出現過剩

行業消息1.《2022-2023 全球計算力指數評估報告》發布：拼經濟，先拼算力7 月 12 日報道，IDC、浪潮信息、清華大學全球產業研究院聯合編製的《2022-2023 全球計算力指數評估報告》發布。

07月13日 1350

填補我市計算機產業鏈服務器研發空白！又一產業研發中心在科學城投用 - 天天要聞

填補我市計算機產業鏈服務器研發空白！又一產業研發中心在科學城投用

當前，重慶正聚力打造數智科技、生命健康、新材料、綠色低碳4大科創高地，積極發展人工智能、區塊鏈、雲計算、大數據等16個重要戰略領域，加快構建“416”科技創新戰略布局，持續動態調整、迭代升級，建設具有全國影響力的科技創新中心。

07月13日 1690

秦剛與布林肯舉行會談暌違三年台積電將在大陸舉辦技術論壇 - 天天要聞

秦剛與布林肯舉行會談暌違三年台積電將在大陸舉辦技術論壇

這其中包括隸屬於中國航空工業集團公司的研究院、以及隸屬於上海超級計算中心的上海海計信息技術有限公司投資的上海超算科技有限公司。

07月13日 1963

許光漢被偷拍後，照片被全網瘋傳……網友：行走的荷爾蒙名不虛傳 - 天天要聞

許光漢被偷拍後，照片被全網瘋傳……網友：行走的荷爾蒙名不虛傳

網友們都說:簡直是李子維本維。就像蕾哈娜的那句名言:You can beat me， but you can not beat my outfit.

07月13日 1633

曾小賢的上司Lisa榕，現實中不僅才貌雙全，還嫁給了CEO - 天天要聞

曾小賢的上司Lisa榕，現實中不僅才貌雙全，還嫁給了CEO

曾小賢的上司Lisa榕，現實中不僅才貌雙全，還嫁給了CEO雖然說《愛情公寓》這部劇在劇情上充滿了爭議，但是一定程度上，這部劇也是很多人的回憶，是伴隨了一代人的青春回憶，而且劇中的很多角色都成為了經典，他們的口頭禪也一直被拿來玩兒梗。

07月13日 1878

如果你不想倒下，這個世界，就沒有什麼困難可以打倒你 - 天天要聞

如果你不想倒下，這個世界，就沒有什麼困難可以打倒你

我沒有見過一個像她那樣的人，經歷了那麼多的磨難，卻仍然那麼樂觀，那麼積極向上地生活，而且，在她的努力下，她家裡的情況已經越來越好了。

07月13日 1320

讓中華五千年飲食文化穿越古今北大教授開講“饗”－傳家宴文化 - 天天要聞

讓中華五千年飲食文化穿越古今北大教授開講“饗”－傳家宴文化

北京大學教授、著名考古學家徐天進以［饗］為主題的書法作品與廣州集美組總設計師、藝術家陳向京傢具作品聯袂呈現。

07月13日 1923

Lisa榕做主持多年沒紅，被陳赫拉進愛情公寓爆紅，如今怎樣了 - 天天要聞

Lisa榕做主持多年沒紅，被陳赫拉進愛情公寓爆紅，如今怎樣了

談到《愛情公寓》這部火爆一時的歡樂喜劇，大家肯定都不陌生。不知道大家是否還記得《愛情公寓》中那個把曾小賢治得服服帖帖的女上司Lisa榕，現實中的她名叫榕榕，和劇中的形象也判若兩人。1981年出生在遼寧瀋陽的榕榕，畢業於上海戲劇學院，後來成為了上海東方傳媒集團有限公司的一名主持人。

07月13日 1092

賞味南山！一場線上稻田音樂會帶你看遍三水南山全域旅遊新優勢 - 天天要聞

賞味南山！一場線上稻田音樂會帶你看遍三水南山全域旅遊新優勢

以稻田為舞台，藍天白云為畫布，青山為背景，欣賞優美舞姿，觀看樂隊live，在鄉間田野間追逐最純粹的音樂……7月30日,“乘‘豐’破浪稻果飄香”2022南山千畝稻田樂「饗」會開幕。

07月13日 1372

ICAE國際兒童畫展百國聯展·紹興特展在紹興諸暨饗街越風文旅創意園盛大開幕 - 天天要聞

ICAE國際兒童畫展百國聯展·紹興特展在紹興諸暨饗街越風文旅創意園盛大開幕

2023年5月27日，ICAE國際兒童畫展舉辦的百國聯展·紹興特展在紹興諸暨饗街·越風文旅創意園盛大開幕。　　本次活動優選紹興優秀兒童繪畫代表作，與來自全球6大洲170個國家和地區的世界青少年繪畫作品，共同搭建以畫筆為媒介的盛大國際文化交流平台。

07月13日 1913