編輯:好睏 袁榭
【新智元導讀】人工智能科學伊始,讓機器「像人一樣學習」始終是所有從業者的目標。人的智能基於多種感官與語言的通用處理能力,一直有研究者致力讓機器做到此效果。
人的智識是「多模態學習」的總和,也就是可以跨越分類界限,理解和移用不同來源或形式的訊息與經驗。
好比方,一個人看過自然頻道的虎類紀錄片,再聽到他人描述「白額大貓呼嘯生風」時,能據此語言描述結合之前的觀影結果,知道別人在描述猛虎,不會貿然跑去滑鏟。
讓人工智能做到同樣的多模態學習效果,是高挑戰而高回報的工作。
單獨處理聲音、圖像、文字數據的單個算法再如何亮眼,若不能在不同模態的數據間移用,終究比不上一個算法,單一基礎框架能通用於圖像識別、音頻模態探測、自然語言處理的各種數據。
而Meta AI研究組的data2vec算法就做到了。研究組在自己的博客中稱,為了讓機器學習更接近人智,有必要克服現有的自監督學習算法對不同模態數據的隔閡。
論文鏈接:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
開源項目:https://github.com/pytorch/fairseq/tree/main/examples/data2vec
為此,LeCun也發文表示祝賀:「data2vec在ImageNet(視覺)、LibriSpeech(語音識別)和GLU(NLP)上的結果均優於現有SOTA。」
data2vec:橫跨CV、NLP和語音
目前主流的人工智能仍然依靠着基於標註數據進行的監督學習。
這種「監督學習」在訓練專門的模型方面性能極好,在它們訓練的任務上往往性能表現極高。
然而,拄着「拐杖」的AI在標註數據不足的的領域很容易翻車,而且要悉心地為AI打造一根又一根「拐杖」,有點太費科學家了。
就比如,各國的研究人員在為本國的語音和文本創建大規模的標記數據集方面都做了大量工作,但要為地球上的成千上萬種語言做到這一點是不可能的。
這時候就需要祭出「自監督學習」了。
自監督讓計算機能夠通過自己的觀察來找出圖像、語音或文本的結構從而了解世界,而不需要利用標註的圖像、文本、音頻和其他數據源。但目前自監督學習算法從圖像、語音、文本和其他模態中學習的方式存在很大差異。
算法會為每種模態預測不同的單位:圖像的像素或視覺標註,文字的單詞,以及語音的聲音學習目錄。
一組像素與一個音頻波形或一段文字是非常不同的,正因為如此,算法設計一直與特定的模態相聯繫,也就意味着算法在每種模態下的運作方式也各不相同。
這種差異一直是自監督學習想要在更大範圍中應用的重要障礙。因為一個為理解圖像而設計的強大算法不能直接應用於另一種模態,例如文本,所以很難以同樣的速度推動幾種模態的發展。
而data2vec是第一個適用於多種模態的高性能自監督算法,可分別應用於語音、圖像和文本,它的性能超過了以前最好的計算機視覺和語音的單一用途算法,而且在NLP任務上也具有競爭力。
data2vec的提出代表了一種新的整體自監督學習範式,不僅改進了模型在多種模態下的表現,同時也不依賴於對比性學習或重建輸入實例。
data2vec通過訓練模型來預測它們自己對輸入數據的表徵,而不考慮模態。
通過這些表徵,而不是預測視覺標註、單詞或聲音,單一的算法就可以處理完全不同類型的輸入,從而消除了學習任務中對特定模態目標的依賴。
然而,想要預測表徵之前,還需要為任務定義一個在不同的模態下都能達到穩健的規一化特徵。
data2vec使用一個教師模型,首先從圖像、文本或語音語調中計算出目標表徵。接下來,掩碼部分輸入,用學生模型重複這一過程,然後預測教師的潛在表徵。
學生模型必須預測全部輸入數據的表徵,儘管它只看到了部分信息。
SOTA三連
計算機視覺
作者在ImageNet-1K訓練集的圖像上對data2vec進行了預訓練,並使用同一基準的標記數據對得到的圖像分類模型進行了微調。
對於需要預測每張圖片單一標籤的下游任務,作者通過在均值池表徵的基礎上堆疊一個softmax歸一化的分類器來實現。
結果顯示,data2vec超過了之前使用ViT-B和ViT-L的工作。與預測原始輸入像素、工程圖像特徵或視覺標註等局部目標的方法相比,在掩碼預測設置中預測語境化潛在表徵的表現非常好。
此外,data2vec也優於目前SOTA的自蒸餾方法。
語音處理
團隊在來自Librispeech(LS-960)的960小時的語音音頻數據上對data2vec進行預訓練。這個數據集包含了來自英語有聲讀物的相對清晰的音頻。
為了了解不同資源環境下的性能,作者使用不同數量的標註數據對自動語音識別模型進行了微調,範圍從10分鐘到960小時。
通過和兩種依賴於離散語音單元的語音表徵學習算法wav2vec 2.0和HuBERT進行比較。結果顯示,data2vec在所有的標註數據設置中都有了改進,其中10分鐘標註數據的收益最大(相對誤碼率提高20%)。
此外,當使用豐富的語境化目標時,在預訓練期間學習語境化目標就可以提高性能,而不需要學習離散的單元。
自然語言處理
data2vec採用了與BERT相同的訓練設置,在書籍語料庫和英語維基百科數據上進行預訓練,更新量為100萬,batch大小為256個序列。
團隊通用語言理解評估(GLUE)基準上進行測試,其中包括自然語言推理(MNLI、QLNLI、RTE)、句子相似性(MRPC、QQP和STS-B)、語法性(CoLA)和情感分析(SST-2)等任務。
作者在每個任務提供的標註數據上分別對data2vec進行微調。結果顯示,data2vec優於RoBERTa的基線。
data2vec是第一個成功的預訓練NLP模型,它不使用離散單位(詞、子詞、字符或字節)作為訓練目標,而是預測在整個未掩碼的文本序列中,從自注意中出現的上下文潛在表徵。
這使得學習任務中,模型需要預測具有當前文本序列特定屬性的目標,而不是對特定離散單元出現的每個文本序列通用的表徵。
此外,訓練目標不是一個封閉的詞彙表。由此,模型可以自己定義它認為合適的目標類型。
自監督:從觀察周圍世界中學習
相較於2021年谷歌為達到類似目標,7月推出的Perceiver與10月放風的Pathways,Meta的data2vec都有優勢:Pathways是沒具體細節與論文的行業公關動作,而Perceiver還在基於傳統的標記數據、有監督學習的路徑。
Meta AI研究組在總結研究時表示,data2vec有眾多落地可能,讓AI通過錄像、錄音、文章的結合,能學會之前對於機器而言太過複雜的技能,比如烤麵包的各種方式、踢足球的各種技術。
這些技能如同語音識別地球上所有的語言一樣,用標註數據來教會AI,成本太高。而AI未來用通行的架構,學會跨越數據模態的通用經驗,來舉一反三完成不同任務,這個目標讓data2vec拉近了。
此外,研究團隊還表示:「實驗處理的潛在表徵變量不是三模態數據的混合編碼。我們還是在單一過程中處理單一模態數據的。不過本項目的主創新點,是data2vec對不同模態數據的處理過程基本一致。這是之前沒人做到的,也更近於神經生物學家描述的人類視聽學習過程。」
不過,data2vec的多模態通用神經網絡並非沒有短板:它得依賴數據的模態標記。圖像、語音、文字這些數據,都得先預處理得到模態分類。然後將這些數據類型的線索餵給data2vec,用論文中的原話說,這叫「小型模態相關的編碼器輸入」。
而真正的人類智識是不需要先預處理數據、分類「此為文字來源知識、彼為二大爺口述訊息」的。
作者介紹
Wei-Ning Hsu 徐煒寧,Meta人工智能研究組高級研究科學家,博士畢業於MIT,研究方向為表徵學習、自監督學習、語音識別。
Jiatao Gu 顧佳濤,Meta人工智能研究組研究科學家,香港大學電子工程博士,研究方向為自然語言處理與深度學習。
Qiantong Xu,Meta人工智能研究組高級研究工程師,研究方向為聲波建模與對話模態識別的語言建模。
參考資料:
https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/
https://www.zdnet.com/article/metas-data2vec-is-the-next-step-toward-one-neural-network-to-rule-them-all/