NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本圖像分類學習方法

2022年10月01日22:47:38 科技 1285

日前,全球最負盛名的 AI 學術會議之一NeurIPS(Neural Information Processing Systems)公布了2022年論文接收結果。創新奇智投稿論文 《An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning》成功被NeurIPS 2022接收。

作為當前全球最負盛名的 AI 學術會議之一,NeurIPS 是每年學界的重要事件。NeurIPS全稱是 Neural Information Processing Systems,神經信息處理系統大會,通常在每年 12 月由 NeurIPS 基金會主辦。大會討論的內容包含深度學習、計算機視覺、大規模機器學習、學習理論、優化、稀疏理論等眾多細分領域。 今年 NeurIPS 已是第 36 屆,將於 11 月 28 日至 12 月 9 日舉行,為期兩周。第一周將在美國新奧爾良 Ernest N.Morial 會議中心舉行現場會議,第二周改為線上會議。NeurIPS 2022 論文投稿早已在 5 月 19 日截止,今日官方終於公布了錄用結果。根據官網郵件中給出的數據,本屆會議共有 10411 篇論文投稿,接收率為 25.6%,略低於去年的 26%。

NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本圖像分類學習方法 - 天天要聞

論文解讀:

NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本圖像分類學習方法 - 天天要聞

圖1:論文概要

論文概述:

本文提出了一種基於反標籤學習的半監督少樣本圖像分類學習方法,包括以下步驟:構造元任務,使用預訓練的神經網路作為特徵提取器,提取元任務中支持集、查詢集以及無標籤圖像數據集對應的特徵,並在支持集上訓練一個分類器用於後續分類任務;反標籤學習模塊以較高正確率給無標籤數據打上反標籤,分類器在反標籤上進行學習更新,不斷迭代直到無法選出反標籤。正標籤學習模塊,在反標籤模塊迭代結束之後,得到類別均衡且正確率較高正標籤,並用分類器進行學習更新。

本文通過卷積神經網路提取元任務中對應數據的特徵,通過反標籤構造模塊以較高正確率利用無標籤數據,並用分類器在反標籤數據上進行學習更新,進行迭代之後設計正標籤學習模塊獲得類別均衡且正確率較高的正標籤,用分類器在正標籤數據上進行學習更新,以更加充分且高質量的利用無標籤數據,可以獲得更高的少樣本學習圖像分類準確率。

創新背景:

隨著深度學習的發展,卷積神經網路在多個圖像任務上已經超過了人類的水平,但是這些模型的訓練依賴大量的數據,在現實生活中有些數據的採集難度較大,例如對液晶顯示屏幕所有種類缺陷數據的採集,另外這些數據的標註也需要耗費大量的人力和財力。 相比之下,人類視覺系統可以從少量的例子中快速學習到新的概念和特徵,然後在新的數據中識別相似的對象。為了模仿人類的這種快速學習的能力,減少方法對於數據的依賴,少樣本學習近年來受到了越來越多的關注。少樣本學習旨在結合先驗知識快速地泛化到只包含少量有監督信息的樣本的新任務中,在此設定下識別每個類別僅需要極少甚至一張帶標籤的樣本,所以可以極大地減少人工標註成本。

基於少樣本學習這樣數據量較少的設定,一個需要面臨的問題就是,在極少的帶標註數據上,很難讓模型較好的擬合到數據的分布。因此為了解決這樣的問題,少樣本學習中出現了結合半監督的研究方向。另外為了解決數據標註困難的問題,反標籤學習的方法也應運而生。反標籤顧名思義就是給數據打上相反的標籤,是一種間接的方式代表該數據不屬於某個類別。這樣的做法可以大大降低數據標註的錯誤,例如對於一個5分類問題來說,給數據打真實標籤即正標籤錯誤的概率為給數據打反標籤錯誤概率的4倍。另外在半監督少樣本學習當中,由於帶標籤數據很少,因此模型在初始階段很難有好的效果。用這樣的模型給無標籤數據標記偽標籤將會出現大量的錯誤以及類別不平衡的現象。在這樣的情況結合反標籤學習的方法就可以解決這樣的問題。本發明研究的基於反標籤學習的半監督少樣本學習方法,針對半監督少樣本學習,設計適合的反標籤標註方法,並結合反標籤學習解決半監督少樣本學習中出現的無標籤數據利用不充分等問題。

目前,出現了許多研究半監督少樣本學習的方法,但依然存在一些問題: 1)給無標籤數據標註偽標籤的正確率較低,錯誤標記的樣本會影響最後的結果;2)無標籤數據上標註的偽標籤存在類別不平衡現象;3)方法較為複雜。

本論文主要貢獻:

本論文提出了一種基於反標籤學習的半監督少樣本圖像分類學習方法。 方法具體如下:

步驟1,構造元任務,使用預訓練的神經網路作為特徵提取器用來提取圖像數據,提取元任務中支持集、查詢集以及無標籤數據集對應的特徵,並在支持集上訓練一個分類器,用於後續圖像分類任務;

NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本圖像分類學習方法 - 天天要聞

步驟2,反標籤學習模塊以較高的95%正確率給無標籤圖像數據打上反標籤,用分類器在反標籤上進行學習更新,通過不斷迭代直到無法選出反標籤;

步驟3,正標籤學習模塊得到類別均衡且正確率高達85%的正標籤,並用分類器進行學習更新;

步驟4,用訓練好的分類器在查詢集上預測得到最後圖像分類的類別結果。

本文提出的方法與已有技術相比,其顯著優點為:

(1)本發明設計的反標籤學習模塊,通過給無標籤圖像數據標註反標籤並進行學習的方式,在模型效果還不好的初始階段,大大降低給無標籤圖像數據標註標籤的錯誤率;

(2)經過反標籤學習模塊之後,本發明設計的正標籤學習模塊可以得到正確率高且類別均衡的正標籤,繼續對模型進行訓練;

(3)本發明提出的方法相較於之前的方法流程簡單,可以更充分且高質量利用無標籤圖像數據進行學習,最後在圖像分類任務上得到了更好的效果。

NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本圖像分類學習方法 - 天天要聞

創新奇智CTO張發恩(論文作者之一)表示:「當前的深度學習技術對人工標註的數據樣本(也即帶標籤數據樣本)數量具有很大依賴性,如何減少對帶標籤數據樣本的依賴,利用較少的帶標籤數據樣本訓練出理想的視覺演算法模型成為當下亟待突破的技術難點。 少樣本學習旨在從已有類別的數據中學習先驗知識,然後利用極少的標註數據完成對新類別的識別,打破了樣本數據量的制約,在傳統製造業等樣本普遍缺失的領域具有實用價值,有助於推動AI落地。」

科技分類資訊推薦

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略 - 天天要聞

長安與東風重組新進展:朱華榮稱不會改變長安既定戰略

2月9日,長安汽車和東風集團股份(00489.HK)同步發布了控股股東「正在與其他國資央企集團籌劃重組事項」的信息。長安汽車的控股股東是兵裝集團,而東風集團股份的控股股東是東風公司。隨即,長安汽車和東風集團這兩家汽車央企將合併重組,成為業內關注的焦點。
公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了 - 天天要聞

公安部出手了!年齡限制放寬10年、送考下鄉,2025年考駕照不難了

電動車加強管理以後,要求機動車類型的車輛需要持證上路,但是老年人考駕照卻受阻,一方面有年齡的限制,另一方面偏遠山區考駕照不方便,所以在2025年公安部出手了,年齡限制放寬10年,同時推出送考下鄉服務,還進一步的降低考駕照的費用,2025年起考摩托車駕照不難了。
從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日 - 天天要聞

從「星靈安全守護體系」到昊鉑HL,看懂廣汽科技日

發布會以技術切入,並全程圍繞安全展開。廣汽集團董事長、總經理馮興亞率先登場,宣布2025年四季度將正式上市支持L3級智能駕駛的車型,他同時強調面向自動駕駛時代對智能駕駛技術、整車安全架構以及突發風險處理能力的要求更高。如何才能滿足更高的要求?馮興亞提到了「廣汽
關稅大棒下,最受傷的車企出現了 - 天天要聞

關稅大棒下,最受傷的車企出現了

特朗普的關稅大棒剛揮出,尚未嚇退「外敵」,卻先刺痛了自己。近日,擁有瑪莎拉蒂、Jeep等14個品牌的全球第四大車企斯泰蘭蒂斯突然宣布裁撤900名美國工人,關閉加拿大和墨西哥兩家工廠,北美生產線陷入癱瘓。幾乎同一時間,捷豹路虎宣布暫停對美出口一個月,奧迪更是直接