新的測試顯示 AI 仍然缺乏常識

2020年11月19日21:04:09 科技 1472

新的測試顯示 AI 仍然缺乏常識 - 天天要聞

儘管自然語言處理取得了進步,但最先進的系統仍然會產生"兩隻狗互相扔飛盤"這樣的句子。來源:阿德里亞娜·桑切斯。

自然語言處理 (NLP) 最近取得了長足的進步,但 AI 對它所讀內容了解多少?據南加州大學計算機科學系的研究人員說,比我們想象的要少。在最近的一篇論文中,任翔副教授和博士生林玉晨發現,儘管取得了進步,人工智能仍然沒有產生似是而非的句子所需的常識。

"目前的機器文本生成模型可以寫一篇能讓許多人信服的文章,但他們基本上是在模仿他們在訓練階段所看到的情況,"林說,"我們本文的目標是研究當前最先進的文本生成模型是否可以寫句子來描述我們日常生活中的自然場景的問題。"

了解日常生活中的場景

具體來說,任和林測試了模型的推理能力,表明當前文本生成模型與人的表現存在較大差距。給定一組常見的名詞和動詞,最先進的 NLP 計算機模型的任務是創建描述日常場景的可信句子。雖然模型生成語法正確的句子,但它們在邏輯上往往不連貫。

例如,下面是一個使用"狗、飛盤、投擲、捕獲"等現代模型生成的句子:

"兩隻狗互相扔飛盤。

測試基於這樣的假設:如果對常識概念有更深入的認識,就無法產生連貫的想法(在這種情況下:"一個人扔飛盤,狗抓住它")。換句話說,常識不僅僅是對語言的正確理解,它意味着你不必在談話中解釋所有內容。這是開發通用人工智能目標的根本挑戰,但除了學術界之外,它對於消費者也相關。

如果不了解語言,基於這些最先進的自然語言模型構建的聊天機器人和語音助手就容易受到失敗的影響。機器人要在人類環境中變得更有作為也至關重要。畢竟,如果你向機器人要熱牛奶,你期望它知道你想要一杯牛奶,而不是整個紙箱。

"我們還表明,如果一代模型在我們的測試中表現更好,它也可以有利於其他需要常識推理的應用,如機器人學習,"林說,"機器人需要了解我們日常生活中的自然場景,然後再做出合理的行動與人互動。"

常識測試

常識推理,或者利用世界基本知識進行推論的能力——比如狗不能互相扔飛盤——數十年來一直抵制人工智能研究人員的努力。最先進的深度學習模型現在可以達到 90% 左右的準確率,因此 NLP 似乎已經接近其目標。

但任,自然語言處理專家和他的學生林,需要更令人信服的這個統計的準確性。在11月16日發表在自然語言處理經驗方法(EMNLP)會議上的論文中,他們質疑基準的有效性,因此,該領域實際取得的進展水平。

新的測試顯示 AI 仍然缺乏常識 - 天天要聞

由最先進的文本生成模型生成的句子示例。來源: 來自論文: "共同基因: 對生成常識推理的受限文本生成挑戰。

"人類通過學習理解和使用他們在周圍環境中識別的常見概念,獲得了撰寫句子的能力,"林說。

"獲得這種能力被認為是人類發展的一個重要里程碑。但是,我們想測試機器是否真的能夠獲得這種生成常識推理能力。

為了評估不同的機器模型,該組合開發了一個名為 CommonGen 的受限文本生成任務,該任務可用作測試機器生成常識的基準。研究人員提出了一個數據集,由35,141個概念與77,449個句子相關。他們發現,即使性能最好的模型,其準確率也只有31.6%,而人類的準確率為63.5%。

"我們驚訝地發現,這些模型無法回憶起簡單的常識性知識,即'人類扔飛盤'應該比狗扔飛盤更合理,"林說,"我們發現,即使是最強的模型,稱為T5,經過一個大型數據集的訓練,仍然可以犯愚蠢的錯誤。"

研究人員說,以前的測試似乎對模型的常識能力沒有充分挑戰,而是模仿他們在訓練階段所看到的。

"以前的研究主要側重於歧視性的常識,"任說。他們測試的機器有多種選擇問題,其中機器的搜索空間很小,通常為四到五個候選者。

例如,歧視常識測試的典型設置是多項選擇問題回答任務,例如:"成年人在哪裡使用膠棒?A: 教室B:辦公室C:書桌抽屜。

當然,這裡的答案是"B:辦公室"。即使是電腦也不用太麻煩地找出來。相比之下,生成設置更開放,例如 CommonGen 任務,其中要求模型從給定的概念生成自然句子。

任先生解釋說:"通過廣泛的模型培訓,在這些任務上有良好的表現是很容易的。與那些具有歧視性的常識推理任務不同,我們提議的測試側重於機器常識的生成方面。

任和林希望該數據集將作為一個新的基準,以利於未來關於將常識引入自然語言生成的研究。事實上,他們甚至有一個排行榜,描繪了各種流行模型獲得的分數,以幫助其他研究人員確定他們在未來項目的可行性。

"機器人需要了解我們日常生活中的自然場景,然後再採取合理的行動與人互動,"林說。

"通過向機器介紹常識和其他特定於領域的知識,我相信有一天,我們可以看到像薩曼莎這樣的人工智能代理在電影《她》中產生自然的反應,並與我們的生活互動。

科技分類資訊推薦

總台現場直擊丨第一批在以中國公民從塔巴口岸進入埃及 - 天天要聞

總台現場直擊丨第一批在以中國公民從塔巴口岸進入埃及

當地時間6月19日,總台記者獲悉,首批119名在以中國公民從埃及和以色列接壤的塔巴口岸進入埃及。他們都是在以中國留學生。中國駐埃及大使館高度重視,第一時間啟動應急機制,派出工作組赴口岸接應並協助轉運至開羅。 總台記者直擊中國公民撤離19日晚些時候,通過塔巴口岸進入埃及的第一批中國公民都已登上了大巴。總台記者...
小米澎湃OS3突然亮相,買iPhone17的錢可以省了 - 天天要聞

小米澎湃OS3突然亮相,買iPhone17的錢可以省了

最近手機圈的頭條又被小米給包圓了,因為旗下的紅米兩款大殺器,K80至尊版和K Pad小平板要在月底正式發布。不過這兩款機子除了價格外已經基本沒啥懸念,不少科技媒體都已提前上手還給出了粗略評測。
高通萬衛星:高通全面技術布局為端側智能體AI體驗發展奠定基礎 - 天天要聞

高通萬衛星:高通全面技術布局為端側智能體AI體驗發展奠定基礎

GSMA 2025 MWC上海昨日正式拉開帷幕,6月19日,在大會期間的AI終端峰會上,高通公司AI產品技術中國區負責人萬衛星就高通對推動智能體AI在終端側部署方面的看法與規划進行了闡述。對於智能體AI終端側部署方面有何規劃,萬衛星表示,智能體AI正在重塑終端消費者的交互界面,高通相信,AI將成為新的UI,並且高通已經開始了技術...
史上最長618落幕,各平台成績單來了! - 天天要聞

史上最長618落幕,各平台成績單來了!

史上最長618落下帷幕。除了為期一個月的大促,今年618受國補推動,多個平台表示3C數碼產品表現亮眼。而在直播方面,從業者表示內容化直播影響力正在擴張。各平台都在6月19日交出了一份618成績單。
代碼織就星河幕!看95後無人機群飛行規劃員的“追光”路 - 天天要聞

代碼織就星河幕!看95後無人機群飛行規劃員的“追光”路

日前,人社部發布公示,擬新增17個新職業,“無人機群飛行規劃員”位列其中。無人機群飛行規劃員的重要職能之一就是操控無人機編隊進行夜空表演,為了籌備一場精彩的演出,他們都需要做哪些工作?張超是一名進入無人機編隊行業7年的老飛手,今年,他將會有一個新身份轉變——無人機群飛行規劃員。大學學習計算機專業的張超...
開發無限,自在松湖!松山湖開發者嘉年華2025精彩啟動 - 天天要聞

開發無限,自在松湖!松山湖開發者嘉年華2025精彩啟動

6月19日,以“開發無限,自在松湖”為主題的松山湖開發者嘉年華2025正式啟動。華為雲中國區副總裁、生態發展與運營部部長陶志強,東莞市副市長、松山湖黨工委書記陳慶松,松山湖黨工委副書記、管委會主任楊陽,以及東莞市委宣傳部副部長、市新聞辦主任
京東侵入攜程“舒適區” - 天天要聞

京東侵入攜程“舒適區”

出品|達摩財經6月18日,京東集團官方發布《致全體酒店經營者的一封公開信》,正式宣布向酒旅賽道全面進軍。京東(9618.HK)表示,近年來,旅遊市場日益繁榮,同步催生出了更多元的需求,京東希望通過新通路的方式為酒店行業提供供應鏈服務,優化供應鏈成本,推動酒店業經營成本下降,從而釋放更多精力聚焦服務品質與體驗煥...
微信出“外掛”了?新功能支持電腦、U盤等存儲設備 - 天天要聞

微信出“外掛”了?新功能支持電腦、U盤等存儲設備

前幾天,我們簡單聊了一下微信 8.0.60 版本的新功能。隨着時間推進,一些功能擴大了灰度測試範圍,還有一些小更新。iOS微信支持自動備份根據被測試到的用戶反饋,新功能位於微信「設置」-「通用」-「聊天記錄與遷移」-「備份與恢復」中。