深度學習紅利見頂,AI「敢問路在何方」?潘雲鶴、姚期智兩院士支招

圖源:東方IC

在剛剛閉幕的2022世界人工智慧大會(WAIC)上,很多觀眾邂逅了一件神奇的「隱身衣」:將一件T恤舉在身前走過攝像頭,它便對你「視而不見」,用來演示的屏幕上,一起路過的行人中,唯有你沒有被綠色方框標註。

「這意味著,最後輸出的報告中,你所有的信息都不在其中。」現場的瑞萊智慧RealAI工作人員告訴記者,一些特殊場景下,穿這件T恤的人就算在鏡頭裡出現,人臉也不會被特殊標註並抓取,從而躲過比對。

這是一個警醒。10年前,ImageNet挑戰賽上,Geoffrey Hinton團隊運用神經網路深度學習技術,將圖片識別的錯誤率從30%左右提升至16.42%,從而掀起本輪人工智慧浪潮。

然而,高速發展10年後,學界普遍認為,從應用的角度來看,以數據驅動的深度學習,其技術潛力已接近「天花板」。一方面,深度學習的本質是利用沒有加工處理過的數據,用概率學習的「黑箱」處理方法尋找規律,這一方法本質上不可解釋、不可以遷移使用,而且需要大量標識化的數據。另一方面,風險點也已出現,除了記者在2022WAIC現場看到的這件「隱身衣」外,偽造人臉「騙」過銀行認證系統,在國內已有多起實際案例出現

世界人工智慧大會舉辦的第五年,人們開始討論新的話題:當此輪深度神經網路學習的技術紅利逐漸見頂時,如何推動人工智慧的普及化以惠及更多產業?人工智慧新的發展又該走向何方?

大數據、大模型固然很重要,大知識同樣重要。中國工程院院士浙江大學教授潘雲鶴在2022WAIC上指出,數據和知識雙輪驅動將是人工智慧第四次創新方向。

讓數字人「有知識」

從誕生到現在,人工智慧已經走過了66年,潘雲鶴將其分為三個階段。第一階段是1956年達特茅斯會議之後,規則和邏輯驅動的人工智慧;第二階段是20世紀60~70年代,從邏輯進化到知識和推理驅動的人工智慧,當時的知識型人工智慧,不但使用邏輯,而且使用比邏輯更加廣泛的人類經驗,思維方式比現在更加「類人」,但當時的知識表達都是字元型,視覺和聲音的信號怎麼變成知識並沒有解決。

2012年,這塊空白被神經網路所填補,人工智慧發展進入第三階段,此後發生的一切,大家便熟知了,深度神經網路在視覺識別、聽覺識別、文字識別、多媒體人工智慧方面得到了極大突破,但同時也產生了很多缺點,比如不可解釋的「黑盒」、大量需要標註的數據。

「這些缺點都和只採用數據而不採用知識有很大關係。」潘雲鶴表示,現在人們常說AI的邏輯能力很難訓練,但其實早期的AI邏輯能力很強,只是現在這一輪的深度神經網路技術沒有這個能力,所以要將兩者聯合起來使用,他稱之為「知識和數據共同驅動」的人工智慧。

潘雲鶴指出,人工智慧第四階段是將數據和跨媒體智能、跨媒體知識表達相結合,對視覺的對象進行識別、分析和模擬,其中,開路先鋒很可能就是視覺、文字等其他知識的多重知識表達,也即這兩年技術上正在突破的多模態人工智慧。

比如,此次大會討論的中心「元宇宙」,便是典型的跨媒體人工智慧。元宇宙要同時模擬物理世界和人類社會,這需要人工智慧不僅有大量的設備識別,還要大量的視覺生成。

潘雲鶴以數字人為例解釋,它不但要表現人的外觀、動作、感知、人的認知能力,還要表現人的個性化數據,「數字人本身就是一個人的跨媒體知識表達,是元宇宙的難點」。

清華大學在「多模態學習」方面的研究也開展多時。上海期智研究院院長姚期智介紹,清華大學交叉信息研究院趙行研究組正在將多模態學習從理論推向實際應用,目前已經可以讓AI根據配音腳本,自動生成與畫面節奏同步的高質量配音。據了解,這項研究是利用視頻中的嘴部運動控制生成語音的韻律,以達到語音和視頻同步。

可喜的是,近年來,人工智慧產學研協同的速度越來越快。據《IT時報》記者了解,騰訊已經將多模態融合應用於計算機視覺研究,為交通銀行提供多個場景下的視覺AI解決方案,可快速處理用戶上傳圖片不清晰、用戶證件照片識別、資料印章模糊干擾、用戶證件PS鑒偽等問題,從而提升銀行交易流程效率,提升用戶辦理業務體驗。

自動駕駛認不出「雪糕桶」

向新的技術方向前進,是人工智慧發展10年後的順勢而為。

如今,數據、算力、演算法是公認「AI三件套」,其中,大數據是基礎中的基礎。究其原因,在於深度學習本質是尋找規律,利用大量沒有加工處理過的數據,通過概率的方式不斷尋找重複出現的模式。也就是說,一種模式出現次數多了,就會被人工智慧認為是正確的,但它為何會得出這個結論,中間的過程是個「黑箱」。

因此,我們常聽到這樣的說法,如果某個模型還不夠準確,那是數據還不夠多,需要更多的數據「投喂」。甚至有時候,AI會自動形成「偏見」,比如此前谷歌便被質疑「性別歧視」,搜索「工程師」,出現的圖片結果大多是男性,這是因為現實生活中的工程師以男性居多。

但當人工智慧具有越來越普遍的應用價值時,以海量數據和超強算力為主的深度學習技術,不僅沒辦法解決所有問題,甚至出現新的風險。上文中,記者看到的「隱身衣」,便是一種「對抗樣本攻擊」,通過在輸入數據中添加擾動,從而使系統做出錯誤判斷。

瑞萊智慧RealAI合伙人、高級副總裁朱萌告訴《IT時報》記者,測試顯示,在自動駕駛場景中,通過修改錐桶的形狀,可以讓汽車感知模塊失效,徑直撞上去;而通過帶有特製花紋的眼鏡,他們數分鐘便刷開了數十部商用手機的人臉密碼。

同時,低數據效率也使得強化學習發生很大缺陷,打敗李世石的AlphaGo需要的數據量,一位職業棋手要花兩萬年才能學完,這意味著,在一些小樣本的場景中,識別準確率將大打折扣。

Robust.AI 創始人、紐約大學名譽教授 Gary Marcus在今年3月的一篇論文中也以特斯拉未能識別「舉著停車標誌的人」的案例說明,由於這個場景遠遠超出了訓練資料庫,以至於系統不知道該怎麼做。

佔領制高點議題

「為了人工智慧將來的發展,我們必須在基礎研究上做大量工作。」姚期智指出,生成原始創新的生態,中國研究學者必須做到「人無我有」。

清華大學交叉信息研究院高陽研究組去年在高效率強化學習上實現了突破。

Atrai遊戲是目前強化學習領域最常用的性能測試標準之一。2015年,Deep Mind團隊提出的演算法DQN,通過200M幀訓練數據,在Atari遊戲上達到了人類平均水平。但高陽團隊提出的EfficientZero僅使用了DQN需求數據量的1/500,2小時便實現了同等效果。

姚期智認為,建設人工智慧創新高地,就是要在制高點議題上,取得話語權。此外,在關鍵技術上,中國即便現階段相對不足,也要儘力追趕,爭取早日進入世界前列。而在新興理論與技術方向,大家都在同一起跑線上,應該爭取先機,和全球並跑。

姚期智重點指出兩個交叉研究方向:量子智能和AI+X,一方面要及早準備,隨著量子計算機的逐漸成熟,進行演算法突破;另一方面要與其他學科交叉研究,使其成為原創工作的源泉。比如人工智慧和材料學便可以一起研究,用新材料創造新的建築方式。

作者/IT時報記者 郝俊慧

編輯/ 挨踢妹

排版/ 季嘉穎

圖片/ WAIC IT時報 東方IC

來源/《IT時報》公眾號vittimes