深度學習紅利見頂，AI“敢問路在何方”？潘雲鶴、姚期智兩院士支招

2022年09月06日19:05:23 科技 1297

圖源：東方IC

在剛剛閉幕的2022世界人工智能大會（WAIC)上，很多觀眾邂逅了一件神奇的“隱身衣”：將一件T恤舉在身前走過攝像頭，它便對你“視而不見”，用來演示的屏幕上，一起路過的行人中，唯有你沒有被綠色方框標註。

“這意味着，最後輸出的報告中，你所有的信息都不在其中。”現場的瑞萊智慧RealAI工作人員告訴記者，一些特殊場景下，穿這件T恤的人就算在鏡頭裡出現，人臉也不會被特殊標註並抓取，從而躲過比對。

這是一個警醒。10年前，ImageNet挑戰賽上，Geoffrey Hinton團隊運用神經網絡深度學習技術，將圖片識別的錯誤率從30%左右提升至16.42%，從而掀起本輪人工智能浪潮。

然而，高速發展10年後，學界普遍認為，從應用的角度來看，以數據驅動的深度學習，其技術潛力已接近“天花板”。一方面，深度學習的本質是利用沒有加工處理過的數據，用概率學習的“黑箱”處理方法尋找規律，這一方法本質上不可解釋、不可以遷移使用，而且需要大量標識化的數據。另一方面，風險點也已出現，除了記者在2022WAIC現場看到的這件“隱身衣”外，偽造人臉“騙”過銀行認證系統，在國內已有多起實際案例出現。

世界人工智能大會舉辦的第五年，人們開始討論新的話題：當此輪深度神經網絡學習的技術紅利逐漸見頂時，如何推動人工智能的普及化以惠及更多產業？人工智能新的發展又該走向何方？

“大數據、大模型固然很重要，大知識同樣重要。”中國工程院院士、浙江大學教授潘雲鶴在2022WAIC上指出，數據和知識雙輪驅動將是人工智能第四次創新方向。

“

讓數字人“有知識”

從誕生到現在，人工智能已經走過了66年，潘雲鶴將其分為三個階段。第一階段是1956年達特茅斯會議之後，規則和邏輯驅動的人工智能；第二階段是20世紀60~70年代，從邏輯進化到知識和推理驅動的人工智能，當時的知識型人工智能，不但使用邏輯，而且使用比邏輯更加廣泛的人類經驗，思維方式比現在更加“類人”，但當時的知識表達都是字符型，視覺和聲音的信號怎麼變成知識並沒有解決。

2012年，這塊空白被神經網絡所填補，人工智能發展進入第三階段，此後發生的一切，大家便熟知了，深度神經網絡在視覺識別、聽覺識別、文字識別、多媒體人工智能方面得到了極大突破，但同時也產生了很多缺點，比如不可解釋的“黑盒”、大量需要標註的數據。

“這些缺點都和只採用數據而不採用知識有很大關係。”潘雲鶴表示，現在人們常說AI的邏輯能力很難訓練，但其實早期的AI邏輯能力很強，只是現在這一輪的深度神經網絡技術沒有這個能力，所以要將兩者聯合起來使用，他稱之為“知識和數據共同驅動”的人工智能。

潘雲鶴指出，人工智能第四階段是將數據和跨媒體智能、跨媒體知識表達相結合，對視覺的對象進行識別、分析和模擬，其中，開路先鋒很可能就是視覺、文字等其他知識的多重知識表達，也即這兩年技術上正在突破的多模態人工智能。

比如，此次大會討論的中心“元宇宙”，便是典型的跨媒體人工智能。元宇宙要同時模擬物理世界和人類社會，這需要人工智能不僅有大量的設備識別，還要大量的視覺生成。

潘雲鶴以數字人為例解釋，它不但要表現人的外觀、動作、感知、人的認知能力，還要表現人的個性化數據，“數字人本身就是一個人的跨媒體知識表達，是元宇宙的難點”。

清華大學在“多模態學習”方面的研究也開展多時。上海期智研究院院長姚期智介紹，清華大學交叉信息研究院趙行研究組正在將多模態學習從理論推向實際應用，目前已經可以讓AI根據配音腳本，自動生成與畫面節奏同步的高質量配音。據了解，這項研究是利用視頻中的嘴部運動控制生成語音的韻律，以達到語音和視頻同步。

可喜的是，近年來，人工智能產學研協同的速度越來越快。據《IT時報》記者了解，騰訊已經將多模態融合應用於計算機視覺研究，為交通銀行提供多個場景下的視覺AI解決方案，可快速處理用戶上傳圖片不清晰、用戶證件照片識別、資料印章模糊干擾、用戶證件PS鑒偽等問題，從而提升銀行交易流程效率，提升用戶辦理業務體驗。

“

自動駕駛認不出“雪糕桶”

向新的技術方向前進，是人工智能發展10年後的順勢而為。

如今，數據、算力、算法是公認“AI三件套”，其中，大數據是基礎中的基礎。究其原因，在於深度學習本質是尋找規律，利用大量沒有加工處理過的數據，通過概率的方式不斷尋找重複出現的模式。也就是說，一種模式出現次數多了，就會被人工智能認為是正確的，但它為何會得出這個結論，中間的過程是個“黑箱”。

因此，我們常聽到這樣的說法，如果某個模型還不夠準確，那是數據還不夠多，需要更多的數據“投喂”。甚至有時候，AI會自動形成“偏見”，比如此前谷歌便被質疑“性別歧視”，搜索“工程師”，出現的圖片結果大多是男性，這是因為現實生活中的工程師以男性居多。

但當人工智能具有越來越普遍的應用價值時，以海量數據和超強算力為主的深度學習技術，不僅沒辦法解決所有問題，甚至出現新的風險。上文中，記者看到的“隱身衣”，便是一種“對抗樣本攻擊”，通過在輸入數據中添加擾動，從而使系統做出錯誤判斷。

瑞萊智慧RealAI合伙人、高級副總裁朱萌告訴《IT時報》記者，測試顯示，在自動駕駛場景中，通過修改錐桶的形狀，可以讓汽車感知模塊失效，徑直撞上去；而通過帶有特製花紋的眼鏡，他們數分鐘便刷開了數十部商用手機的人臉密碼。