學術分享丨李學龍教授：多模態認知計算是實現通用人工智能的關鍵

分類：科技

瀏覽數：1125

2022-10-12

轉自 AI科技評論

作者 | 李梅

編輯 | 陳彩嫻

信容=信息量/數據量

在如今數據驅動的人工智能研究中，單一模態數據所提供的信息已經不能滿足提升機器認知能力的需求。與人類利用視覺、聽覺、嗅覺、觸覺等多種感官信息來感知世界類似，機器也需要模擬人類聯覺來提升認知水平。

同時，隨着多模態時空數據的爆發和計算能力的提升，研究者已經提出了大量方法以應對日益增長的多樣化需求。但當前的多模態認知計算仍局限於人類表觀能力的模仿，缺乏認知層面的理論依據。面對更加複雜的智能任務，認知科學與計算科學的交叉已成必然。

近日，西北工業大學的李學龍教授在《中國科學：信息科學》期刊上發表了《多模態認知計算》一文，以“信容”（Information Capacity）為依據，建立了認知過程的信息傳遞模型，提出了“多模態認知計算能夠提高機器的信息提取能力”這一觀點，從理論上對多模態認知計算各項任務進行了統一。

李學龍認為，多模態認知計算是實現通用人工智能的關鍵之一，在”臨地安防”（Vicinagearth Security）等領域有廣闊的應用前景。本文探索了人類和機器的統一認知模式，對推動多模態認知計算的研究帶來啟發。

引用格式：Xuelong Li, “Multi-Modal Cognitive Computing,” SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022-0226

李學龍是西北工業大學教授，關注高維數據的智能獲取、處理和管理之間的關係，在“臨地安防”（Vicinagearth Security）等應用系統中發揮作用。2011年入選IEEE Fellow，並是首位當選國際人工智能協會（AAAI）執委的大陸學者。

AI 科技評論對《多模態認知計算》一文的要點作了概括，並沿該方向與李學龍教授進行了一次深入對話。

1 機器認知能力在於信息利用率

基於信息論，李學龍提出：多模態認知計算能夠提高機器的信息提取能力，並從理論上對這一觀點進行了建模（如下）。

首先，我們需要明白人類是怎樣提取事件信息的。

1948 年，信息論創始人 Shannon 提出“信息熵”的概念來表示隨機變量的不確定程度，事件的概率越小，其發生所提供的的信息量越大。也就是說，在一個給定的認知任務 T 中，事件 x 的發生所帶來的信息量與事件的概率 p(x) 成反比：

而信息是以各種模態為載體進行傳輸的，假設事件空間 X 為感知模態（m）、空間（s）、時間（t）上的張量，那麼個體從事件空間中獲得的信息量可定義為：

人類在某一時空範圍內的是注意力有限的（假設為 1），所以當時空事件從單模態轉變為多模態時，人類就不需要不斷調整注意力，將關注點放在未知事件信息上，以獲取最大量的信息：

由此可知，當時空事件包含的模態越多，個體獲取的信息量也就越大，認知水平也隨之更高。

那麼對於機器而言，是否獲取到的信息量越大，機器就越接近人類的認知水平？

答案是並非如此。為了度量機器的認知能力，李學龍在“信容”理論的基礎上，將機器從事件空間中提取信息的過程表示如下。其中，D 為事件空間 x 的數據量。

由此，機器的認知能力即可定義為從單位數據獲取最大信息量的能力，這樣一來，人類與機器的認知學習便統一為提高信息利用率的過程。

那麼，如何提升機器對多模態數據的利用率進而提升多模態認知計算能力呢？

正如人類的認知提升離不開對現實世界的聯想、推理、歸納與演繹，要想提升機器認知能力，也需從對應的三方面切入：關聯、生成、協同，這也是如今多模態分析的三個基本任務。

2 多模態認知計算的三條主線

多模態關聯、跨模態生成和多模態協同三個任務處理多模態數據的側重點不同，但其核心都是要利用儘可能少的數據實現信息量的最大化。

多模態關聯

源自不同模態的內容如何在空間、時間和語義層級上關聯對應起來？這是多模態關聯任務的目標，也是提高信息利用率的前提。

多模態信息在空間、時間和語義層面上的對齊是跨模態感知的基礎，多模態檢索則是感知在實際生活中的應用，比如依靠多媒體搜索技術，我們可以輸入詞彙短語來檢索視頻片段。

圖註：多模態對齊示意圖

受人類跨感官感知機制的啟發，AI 研究者已經將可計算模型用於唇讀、缺失模態生成等跨模態感知任務當中，還進一步輔助殘障群體的跨模態感知。而在將來，跨模態感知的主要應用場景將不再局限於殘障人士的感知替代應用上，而是將更多的同人類的跨感官感知相結合，提升人類多感官感知水平。

如今，數字模態內容快速增長，跨模態檢索的應用需求也愈加豐富，這無疑為多模態關聯學習提出了新的機遇和挑戰。

跨模態生成

我們在閱讀一段小說情節時，腦海中會自然浮現相應的畫面，這是人類跨模態推理和生成能力的體現。

與之類似，在多模態認知計算中，跨模態生成任務的目標是賦予機器生成未知模態實體的能力。從信息論的角度看，這一任務的本質就成了在多模態信息通道內提高機器認知能力的問題，這有兩種途徑：一是提高信息量即跨模態合成，二是減小數據量即跨模態轉換。

跨模態合成任務是在生成新模態實體時對已有信息進行豐富，從而增大信息量。以基於文本生成圖像為例，早期主要採用實體關聯的方式，對檢索庫的依賴程度往往很高。如今，圖像生成技術以生成對抗網絡為主，已經能夠生成逼真的高質量圖像。但人臉圖像生成仍然十分具有挑戰性，因為從信息層次上看，即使是微小的表情變化，也有可能傳達出非常大的信息量。

同時，將複雜模態轉換到簡單模態，尋找更加簡潔的表達形式，則可以降低數據量，提升信息獲取能力。

圖註：常見的跨模態轉換任務

作為計算機視覺和自然語言處理兩大技術結合的典範，跨模態轉換可以極大地提升在線檢索效率。比如對一段冗長的視頻給出簡要的自然語言描述，或者給一段視頻信息生成與之相關的音頻信號燈。

目前主流的兩種生成式模型 VAE（變分自編碼器）和 GAN （生成對抗網絡）各有長短，李學龍認為，VAE 依賴假設條件，而 GAN 可解釋性差，二者需合理結合。尤其重要的一點是，多模態生成任務的挑戰不僅在於生成質量方面，更多在於不同模態之間的語義及表示鴻溝問題，如何在具有語義鴻溝的前提下進行知識推理是未來需要解決的難點。

多模態協同

在人類認知機制中，歸納和演繹扮演着重要角色，我們可以對看到的、聽到的、聞到的、摸到的等多模態感知進行歸納融合、聯合演繹，以此來作為決策依據。

同樣地，多模態認知計算也要求協調兩個或兩個以上的模態數據，互相配合完成更加複雜的多模態任務，並提升精度和泛化能力。從信息論的角度看，它的本質是多模態信息之間的相互融合以達到信息互補的目的，是對注意力的優化。

首先，模態融合是為了解決數據格式、時空對齊、噪聲干擾等帶來的多模態數據的差異問題。目前，機遇規則的融合方式包括串行融合、並行融合和加權融合，基於學習的融合方式則包括注意力機制模型、遷移學習和知識蒸餾。

其次，多模態信息融合完成後就需要對模態信息進行聯合學習，以幫助模型挖掘模態數據間的關係，建立起模態與模態間的輔助或互補聯繫。

通過聯合學習，一方面能夠提升模態性能，如視覺指導音頻、音頻指導視覺、深度指導視覺等應用；另一方面可以解決以往單模態難以實現的任務，如複雜情感計算、音頻匹配人臉建模、視聽覺指導音樂生成等都是未來多模態認知計算的發展方向。

3 機遇與挑戰

近年來，深度學習技術已經極大地推動了多模態認知計算在理論和工程上的發展。但如今應用需求愈加多元化，數據迭代速度也在加快，這為多模態認知計算提出了新的挑戰，也帶來了許多機遇。

我們可以從提升機器認知能力的四個層面來看：

在數據層面，傳統的多模態研究將數據的採集和計算分離為兩個獨立過程，這種方式存在弊端。人類世界由連續模擬信號構成，而機器處理的是離散數字信號，其轉換過程必然造成信息變形和丟失。

對此，李學龍認為，以光神經網絡為代表的智能光電能夠帶來解決思路，如果能完成多模態數據的感算一體，機器的信息處理效率和智能水平將大大提高。

在信息層面，認知計算的關鍵是對信息中高級語義的處理，比如視覺中的位置關係、圖像的風格、音樂的情感等。目前多模態任務局限於簡單目標和場景下的交互，而無法理解深層的邏輯語義或主觀語義。例如，機器可以生成一朵花開在草地上的圖像，但無法理解花草會在冬天凋謝的常識。

所以，搭建不同模態下複雜邏輯和感受語義信息的通信橋樑，建立特色的機器度量體系是未來多模態認知計算的一大趨勢。

在融合機制層面，如何對由異構部件組成的多模態模型進行高質量優化是當前的一個難點。目前的多模態認知計算大多是在統一的學習目標下對模型進行優化，這種優化策略缺乏對模型內部異構組成部分的針對性調整，導致現有的多模態模型存在較大的欠優化問題，需要從多模態機器學習與優化理論方法等多方面切入。

在任務層面，機器的認知學習方式隨任務而不同，我們需要設計任務反饋的學習策略，提升多種相關任務的解決能力。

另外，針對當前機器學習從圖像、文本等數據中理解世界這種“旁觀式”學習方式的弊端，我們可以借鑒認知科學的研究成果，如具身智能（Embodied AI）就是一個有潛力的解決方案：智能體需要與環境進行多模態交互，才能不斷進化形成解決複雜任務的能力。

4 對話李學龍

AI 科技評論：在人工智能研究中，我們為什麼要關注多模態數據和多模態認知計算？多模態數據的增長為模型的性能帶來了什麼好處和阻礙？

李學龍：謝謝您的問題。我們之所以關注和研究多模態數據，一方面是由於人工智能本質上是依賴數據的，單一模態數據能提供的信息總是非常有限的，而多模態數據在同一任務下可以提供多層次、多視角的信息；另一方面則是因為客觀的物理世界就是多模態的，很多實際問題的研究離不開多模態數據，例如以文搜圖，聽音識物等等。

我們從認知計算的角度來分析多模態問題，是從人工智能的本質出發，通過構建可模擬人類認知模式的多模態分析系統，希望機器像人類一樣智能地感知周圍環境。

複雜交錯的多模態信息也會帶來大量噪聲和冗餘，增加模型學習壓力，使得某些情況下多模態數據的性能反而不如單一模態，這就為模型的設計和優化提出了更大的挑戰。

AI 科技評論：從信息論的角度看，人類的認知學習與機器的認知學習有何相似之處？關於人類認知機制的研究對於多模態認知計算有怎樣的指導意義？如果缺乏對人類認知的了解，多模態認知計算將面臨哪些困難？

李學龍：亞里士多德認為人對事物的認識是從感覺開始的，而柏拉圖則認為通過感覺得出的不能稱為知識。

人類從出生開始就接受大量的外界信息，通過感知、記憶、推理等逐步建立自我認知系統，而機器的學習能力是通過對大量數據的訓練來實現的，主要是在找感知和人類知識之間的對應關係。按照柏拉圖的觀點，機器學到的還不是知識。我們在文中引用了“信容”（Information Capacity）的理論，嘗試從信息提取能力入手，去建立人和機器之間的認知聯繫。

人類通過視、聽、嗅、味、觸等多種感知通道將多模態信息傳送至大腦，對大腦皮層產生聯合刺激。心理學研究發現，多種感官聯合作用會產生“多感官整合”、“聯覺”（Synaesthesia）、“知覺重組”、“知覺記憶”等認知學習模式，這些人類認知機製為多模態認知計算帶來了重大的啟發，例如派生出了多模態協同、多模態關聯、跨模態生成等典型多模態分析任務，同時也催生了局部共享、長短時記憶、注意力機制等典型機器分析機制。

目前來說，人的認知機理其實並不明確。缺乏人類認知研究的指導，多模態認知計算會陷入數據擬合的陷阱，我們也無法判斷模型是否學到了人需要的知識，這也是人工智能目前飽受爭議的一點。

AI 科技評論：您從信息論角度提出的“多模態認知計算能夠提高機器的信息提取能力”這一觀點，在具體的多模態認知計算任務中有何證據支持？

李學龍：這個問題可以從兩個方面來回答。第一，多模態信息可以提升單一模態在不同任務中的表現。大量的工作已經驗證了，在加入聲音信息時，計算機視覺算法的性能會得到顯著提升，像目標識別、場景理解等。我們還做過一個環境相機，發現通過融合溫度、濕度等傳感器的多模態信息，可以提升相機的成像質量。

第二，多模態信息的聯合建模為實現更加複雜的智能任務提供了可能，比如，我們曾做過“Listen to the Image”的工作，將視覺信息編碼為聲音，讓盲人“看到”眼前的景象，這也證明了多模態認知計算幫助機器提取更多的信息。

AI 科技評論：在多模態關聯任務中，對齊、感知與檢索三者之間有什麼樣的相互聯繫?

李學龍：這三者的關係本質上來講是相對比較複雜的，在本篇文章中，我僅給出了一些自己的初步看法。不同模態信息產生關聯的前提是它們在共同描述同一個/相似的客觀存在，但是這種關聯關係卻在外界信息冗雜或干擾時存在較難確定的問題，這就需要進行首先對齊不同模態的信息，確定關聯對應關係。進而在對齊基礎上，實現從一個模態到另一個模態的感知。

這就好比當我們僅看到一個人的唇部運動，能彷彿聽到他說的內容。而這種現象的產生也是建立在視素（Viseme）和音素（Phoneme）關聯對齊的基礎上。在實際生活中，我們也將這種跨模態的感知進一步運用到了諸如檢索這樣的應用中，通過文字檢索商品的圖片或視頻內容，實現可計算的多模態關聯應用。

AI 科技評論：最近非常流行的 DALL-E 等模型是跨模態生成任務的一個例子，它們在文本生成圖像任務中表現出色，但其生成圖像的語義相關性、可解釋性等仍存在很大局限。您認為應當如何解決這個問題？難點在哪？

李學龍：從文本生成圖像是一個“想象”的任務，人們看到或聽到一句話，理解其中的語義信息，然後依託大腦記憶想象出最符合的場景，產生“畫面感”。目前，DALL-E 還處於利用統計學習進行數據擬合的階段，對大規模數據集進行歸納和總結，這也是目前深度學習最擅長的。

但是，如果真正要學習人的“想象力”，還需要考慮人類的認知模式，達到“高水平”的智能。這就需要神經科學、心理學、信息科學的交叉融合，是挑戰也是機遇，近年來很多團隊也在這方面做出了頂尖的工作。通過多學科的交叉融合，探索人類認知模式的可計算性理論，也是我們團隊努力的方向之一，相信也將為“高水平”的智能帶來新的突破。

AI 科技評論：在您的研究工作中，您是如何從認知科學中汲取靈感的？您尤其關注認知科學中的哪些研究？

李學龍：問渠那得清如許？為有源頭活水來。我經常從日常生活中觀察和思考一些有趣的現象。

在20年前，我瀏覽到一個網頁，上面是江南山水圖片，當我再點開網頁上的音樂以後，突然有一種身臨其境的感覺，這時候我就開始從認知的角度思考聽覺和視覺之間的關係。在學習認知科學的過程中，我了解到“聯覺”（Synaesthesia）這種現象，結合我自身的科研方向，完成了一篇題為“Visual Music and Musical Vision”的文章，這也是第一次將“聯覺”引入信息領域。

後來，我開設了信息領域第一門認知計算課程，也創建了IEEE SMC的認知計算技術委員會，嘗試打破認知科學和計算科學的邊界，當時也給認知計算下了定義，也就是目前技術委員會主頁上的描述。

2002年，我提出了單位數據量的信息量提供能力，也就是“信容”（Information Capacity）的概念，嘗試對機器的認知能力進行度量，也很榮幸地在2020年以“多模態認知計算”為題獲得了騰訊科學探索獎。

到現在，我也持續關注着聯覺和知覺方面的最新進展。在自然界中，也存在很多人類五感之外的模態，甚至也存在目前尚不清楚的潛在模態，比如量子糾纏就可能說明了我們生活的三維空間只是高維空間的投影，如果確實是這樣，那我們的探測手段也是局限的。或許可以挖掘利用這些潛在模態，讓機器接近甚至超越人的感知能力。

AI 科技評論：在如何將人類認知與人工智能更好結合的問題上，您提出構建以“元模態”（Meta-Modal）為核心的模態交互網絡，能否介紹一下該觀點？其理論基礎是什麼？

李學龍：元模態本身是一個源自認知神經科學領域的概念，它是指大腦具備這樣一類組織，它在執行某種功能或表徵操作時，對輸入信息的感官類別不作具體假設，但仍然能夠具備較好的執行表現。
元模態並非是一類突發奇想的概念，它本質上是認知科學家對跨模態感知、神經元可塑性等現象和機理整合後的假設與猜想。它也啟發我們去構造不同模態間的高效學習架構與方法，實現更加泛化的模態表徵能力。

AI 科技評論：多模態認知計算在真實世界主要有哪些應用？舉例說明。

李學龍：多模態認知計算是一項非常貼近實際應用的研究。我們團隊之前有一項跨模態感知的工作，把視覺信息編碼成聲音信號，刺激大腦皮層的初級視皮質，已經在助殘助障中開展了應用，幫助盲人看到外界事物。在日常生活中，我們也會經常用到多模態認知計算的技術，比如短視頻平台就會綜合語音、圖像和文本標籤，去為用戶推薦可能感興趣的視頻。

更廣泛地，多模態認知計算在文章提到的臨地安防中也有廣泛的應用，比如智能搜救，無人機和地面機器人採集到聲音、圖像、溫度、濕度等各種數據，需要從認知的角度對這些數據進行整合分析，根據現場情況執行不同的搜救策略。類似的應用還有很多，比如智能巡檢、跨域遙感等等。

AI 科技評論：您在文章中提到，目前多模態任務都局限於簡單目標和場景下的交互，一旦涉及到更為深層的邏輯語義或主觀語義就舉步維艱。那麼，這是否是符號主義人工智能復興的一個契機？在提高機器處理高級語義信息的能力方面，還有哪些可行方案？

李學龍：羅素認為，知識的大部分價值在於它的不確定性。知識的學習是需要有溫度的，是能夠和外界交互與反饋的。當前我們所看到的大部分研究屬於單模態的、被動的、面向給定數據的研究，可以滿足一些簡單目標和場景下的研究需求。但對於更為深層的邏輯語義或主觀語義，需要對時空多維度下的、更多模態支持的、可主動交互的情境予以充分地探索和挖掘。

為了實現這一目標，研究手段與方式方法可能可以更多地借鑒認知科學，例如，一些研究者將認知科學中的“具身體驗”假說引入到人工智能領域，探究機器在同外界主動交互、多種模態信息輸入情境下新的學習問題與任務，並得到了一些可喜的結果。這也展現出多模態認知計算在聯結人工智能與認知科學的紐帶作用和積極意義。

AI 科技評論：智能光電也是您的研究方向之一，您在文章中提到，智能光電能夠為信息的數字化帶來探索性的解決思路。在多模態數據的感知和計算方面，智能光電能夠做哪些工作？

李學龍：光信號和電信號是人們認識世界的主要方式，人類每天接收信息的大部分來自於視覺，再深入一步，視覺信息主要來自於光。人類視聽嗅味觸的五種感官也是將光線、聲波、壓力、氣味、刺激等不同感覺轉化為電信號進行高層次認知。所以光電是人類感知世界的主要信息來源。近年來，藉助各種先進的光電設備，我們感知到了可見光和可聞聲波以外更多的信息。

可以說光電設備是人類感知世界的最前端。我們從事的智能光電研究，致力於探索光電感知硬件與智能算法的一體化，將物理先驗引入算法設計過程，利用算法結果指導硬件設計，形成“感”和“算”的互相反饋，拓展感知邊界，達到模仿甚至超越人的多模態感知的目的。

AI 科技評論：在多模態認知計算方向，您目前在做哪些研究工作？您未來的研究目標是什麼？

李學龍：感謝提問。我目前主要關注臨地安防（Vicinagearth Security）中的多模態認知計算。傳統意義上的安防通常是指城市安防。在當下，人類的活動空間已經擴展到了低空、地面和水下，我們需要去建立臨地空間中的立體化安全防衛體系，來執行跨域探測、自主無人系統等一系列實際任務。

臨地安防面臨的一個很大的問題，是如何智能化地處理不同傳感器產生的大量多模態數據，比如讓機器從人的角度去理解無人機和地面監控設備同時觀測到的目標。這就涉及到多模態認知計算，以及多模態認知計算與智能光電的結合。

在未來，我會持續研究多模態認知計算在臨地安防中的應用，希望能夠打通數據獲取和處理之間的聯繫，合理利用“正向激勵噪聲”（Pi-Noise），建立以多模態認知計算和智能光電為支撐的臨地安防體系。

參考鏈接：

https://www.sciengine.com/SSI/doi/10.1360/SSI-2022-0226;JSESSIONID=7c3d5b26-e0d8-42c1-8790-d3b5f379664e

科技分類資訊推薦

1 機器認知能力在於信息利用率

2 多模態認知計算的三條主線

​3 機遇與挑戰

4 對話李學龍

3 機遇與挑戰