首個公開發表的SAR圖像目標識別基礎模型!

2025年01月22日03:42:04 科學 1718


合成孔徑雷達(Synthetic Aperture Radar, SAR)作為一種基於電磁波的主動探測技術,具有全天時、全天候的對地觀測能力,已發展成為一種不可或缺的對地觀測工具,在軍民很多領域均有著重要的應用。

目標識 別(Automatic target recognition,ATR)是 SAR 圖像智 能解譯的核心問題,旨在對 SAR 圖像中典型目標(通常為車輛、艦船和飛機等目標)進行自動定位和分類,複雜、開放、對抗環境下的 SAR 目標識別要做到高精準、高敏捷、強穩健、省資源,仍然面臨很多挑戰。當前,SAR 目標識別主要面臨兩個層面挑戰。

  • 技術層面 ,SAR 目標識別方法多為有監督、靜態、單任務、單模型、單平台,對特定類別的檢測和分類,都需要各自的演算法模型,每個任務都必須從頭開始獨立學習,這導致計算冗餘、演算法設計周期長、泛化能力嚴重不足、高標註依賴等問題。
  • 生態層面 ,由於 SAR 圖像數據敏感性、標註代價昂貴等因素,缺乏良好的、開源的代碼、評估基準和數據生態,導致很多 SAR 目標識別演算法不開源、演算法評估基準不統一、目前尚無公開的百萬 / 千萬級大規模高質量 SAR 目標識別基準數據集等問題。

人工智慧基礎模型技術飛速發展的今天,SAR 圖像解譯領域技術創新與發展生態亟待突破。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞
圖 1. 各種專門的 SAR ATR 數據集和任務。SAR ATR 包括各種成像條件(即操作條件),如目標、場景和感測器。然而,由於成本較高,通常是在特定任務和設置中收集數據集。例如,MSTAR 是 X 波段和草地場景中的 10 型車輛目標分類數據集,SAR-Aircraft 是從三個機場和 C 波段衛星收集的 7 型飛機檢測數據集。不同的目標特徵、場景信息和感測器參數使現有演算法的泛化困難。因此,團隊旨在建立 SAR ATR 基礎模型,一種用於各種任務的通用方法。

為了解決上述技術挑戰,國防科技大學電子科學學院劉永祥劉麗教授團隊提出首個公開發表的SAR圖像目標識別基礎模型SARATR-X 1.0。


技術層面: ①率先開展基於自監督學習的 SAR 目標特徵表示學習;②創新性地提出了適用於 SAR 圖像的聯合嵌入 - 預測自監督學習新框架(Joint Embedding Predictive Architecture for SAR ATR, SAR-JEPA),讓深度神經網路僅僅預測 SAR 圖像稀疏且重要梯度特徵表示,有效地抑制了 SAR 圖像相干斑雜訊,避免預測 SAR 圖像含相干斑雜訊的原始像素強度信息;③研製了首個 SAR 圖像目標識別基礎模型 SARATR-X(0.66 億參數,基於 Transformer),突破了複雜場景中 SAR 目標特徵學習對大規模高質量標註數據高度依賴的瓶頸,大幅提升了預訓練基礎模型的認知能力。

生態層面: 團隊致力於為 SAR 圖像目標識別創建一個良好開源生態,以促進 SAR 目標識別技術快速創新發展。①規範和整合已有公開數據集,形成較大規模 SAR 圖像陸海目標識別數據集 SARDet-180K;②為了取代 MSTAR(10 種車輛型號),耗時兩年構建 SAR 車輛目標識別數據集 NUDT4MSTAR(40 種車輛型號、更具挑戰的實際場景、數據公開、規模超過同類型數據集十倍),進行了詳細性能評測;③開源相關的目標識別演算法代碼和評估基準。

研究成果以 「SARATR-X:面向 SAR 目標識別的基礎模型(SARATR-X: Towards Building A Foundation Model for SAR Target Recognition)」 和 「預測梯度更好:探索聯合嵌入-預測框架的 SAR ATR 自監督學習(Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture)」,被國際頂級學術期刊《IEEE Transactions on Image Processing》錄用和《ISPRS Journal of Photogrammetry and Remote Sensing》發表。


團隊的代表性工作一經發表、錄用後,已經引起國內外同行關注,獲得積極評價。引文單位包括美國空軍研究實驗室、法國古斯塔夫・埃菲爾大學、新加坡南洋理工大學、北京大學武漢大學北京航空航天大學等。


例如,ISPRS Journal 主編、LASTIG 實驗室主任 Clement Mallet 在其論文《AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities》中認為 「SAR-JEPA [41] 首次將聯合嵌入預測框架概念應用於對地觀測,專門用於 SAR 數據。(引文原文:SAR-JEPA [41] introduces the first implementation of JEPA concepts for EO, focusing exclusively on SAR data. In this paper, we combine JEPA with a versatile spatial encoder architecture, allowing a single model to handle diverse data scales, resolutions, and modalities.)」


此外,該團隊正在加緊研製 SARATR-X 2.0,預計參數規模 3 億,SAR 目標切片樣本規模 200 萬,其中收集的數據將形成開源數據集以服務生態建設,近期將發布 SAR 車輛目標識別數據集 NUDT4MSTAR。


技術方案

團隊旨在構建一個通用 SAR 圖像目標識別基礎模型以滿足實踐中多樣的識別任務需求。作為首個公開發布的 SAR 圖像 目標識別基礎 模型 SARATR-X 1.0,該模型從大規模無標註 SAR 目標圖像中學習到了較為通用的特徵表示,突破了傳統有監督演算法適應性局限,為各種下游任務的高效適應提供基礎。在系列工作中,團隊研究了 SAR 圖像 目標識別基礎 模型 的預訓練集、模型架構、自監督學習和評估基準。

預訓練集 ,所使用的預訓練集包括不同的目標類別和成像條件,以適應各種下游任務,將大部分開源數據集作為預訓練的一部分,共納入了 14 個具有不同目標類別和成像條件的分類和檢測數據集,作為新的預訓練數據集,以探索基礎模型的潛力。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞

表 1 . SARATR-X 用於預訓練的 14 個開源合成孔徑雷達數據集。

模型架構 ,採用 HiViT 架構,旨在實現更好的遙感圖像空間表示,特別是對於大圖像中的小目標。HiViT 具有 Swin Transformer 高解析度輸入的優勢,且可在自監督學習的掩碼圖像建模中丟棄補丁提高訓練效率。

自監督學習 ,SAR 相干成像中的散斑雜訊會對圖像質量產生負面影響。此外,SAR 幅度圖像的視覺特徵不像光學 RGB 圖像那樣明顯。因此,SAR SSL 的主要任務是提高特徵學習和目標信號的質量。在前期工作 SAR-JEPA 中,重點研究了如何針對 SAR 圖像特性設計自監督學習方法。

SAR-JEPA 受 JEPA、MaskFeat、FG-MAE 等工作啟發,這些工作利用特徵空間進行自監督學習任務,而非在原始像素空間進行,這壓縮了圖像空間中信息冗餘,且可以學習到不同特徵,如目標性質、深層語義特徵。SAR-JEPA 針對 SAR 圖像雜訊問題,重點在一個降噪特徵空間進行自監督學習,通過結合傳統特徵運算元去除散斑雜訊干擾,提取目標邊緣梯度信息用於自監督,從而實現在 SAR 圖像這種雜訊數據中的大規模無標註自監督學習。其結果表明自監督學習模型性能可在不同 SAR 目標分類數據集上隨著數據量而不斷增長。這推動了我們基於大規模數據集構建一個通用 SAR 圖像目標識別基礎模型,從而實現在不同目標、場景、感測器和識別任務中高效復用。

因此,SARATR-X 基於 SAR-JEPA 進行訓練,首先在 ImageNet 數據進行預訓練,以獲得更好的初始化模型多樣性,第二步是利用 SAR-JEPA 中高質量的目標信號對 SAR 圖像進行預訓練。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞
圖 2. 兩步預訓練過程。第一步是對 ImageNet 數據進行預訓練,以獲得更好的初始化模型多樣性。第二步是利用高質量的目標信號對 SAR 圖像進行預訓練,比如抑制散斑雜訊和提取目標邊緣的多尺度梯度特徵。

評估任務 ,針對全面評估基礎模型的性能需求,團隊利用 3 個開源目標數據集,首先構建了一個包含 25 個類別的細粒度分類數據集 SAR-VSA,以評估所提改進措施的有效性。然後,在公開分類和檢測數據集上,對所提 SARATR-X 1.0 和現有方法進行了全面比較。

模型性能

受限於公開的 SAR 目標識別數據集規模,研製的 SAR 圖像目標識別基礎模型 SARATR-X 1.0 規模只有 0.66 億參數,但從大規模無標註 SAR 目標圖像中學習到了較為通用的特徵表示。在多種下游目標識別任務上(8 個基準目標識別任務,包括小樣本目標識別、穩健目標識別、目標檢測等)的性能達到國際先進或者領先水平(如下圖 3 所示)。在細粒度車輛 MSTAR 數據集中,它的目標分類性能優於現有的 SSL 方法(BIDFC),提升 4.5%。

此外,它在擴展操作條件 EOCs(擦地角 EOCs-Depression、目標配置 EOCs-Config 和目標版本 EOCs-Version)下表現良好。SARATR-X 在各種類別(多類的 SARDet-100K 和 OGSOD、船舶 SSDD 和飛機 SAR-AIRcraft)的目標檢測下也具有競爭力,平均提升約 4%。並且所提方法具有良好的數據量和參數量可擴展性,具有進一步提升潛力。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞
圖 3. SARATR-X 1.0 分類和檢測的結果。

檢測結果分析 ,檢測可視化如下圖 4 所示,虛警和漏檢在 SAR 圖像中很常見,特別是在相似的目標重疊和複雜的場景。雖然所提方法通過學習圖像中的上下文信息,有效地提高了檢測效果,但複雜場景和低質量圖像的目標檢測仍然非常困難。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞
圖 4. 在 SARDet-100K 上進行檢測的可視化。


注意力多樣性分析 ,對於不同模型的注意力範圍進行可視化分析,如圖 5 所示,通過模型架構(圖 a v.s. 圖 b),初始化權值(圖 a v.s. 圖 c)和 SSL (圖 d v.s. 圖 e)改進以確保 SAR 目標識別的注意範圍不同,包括 HiViT 架構、ImageNet 權重和 SAR 目標特徵。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞
圖 5. 不同注意頭的平均注意距離(x 軸為注意頭層數,點顏色代表不同的層,以便更好地可視化),注意距離(Attention Distance)代表了一個接受域的範圍。

可擴展性 ,儘管掩碼圖像建模可以有效地隨數據資源和模型參數擴展性能,但在處理雜訊數據(如 SAR)時,所提方法是否可以確保其可擴展性?圖 6 從三個角度展示了實驗的結果:數據集大小、模型參數量和訓練輪數。儘管預訓練集包含 18 萬個圖像,比 ImageNet-1K 小,但在圖 6(a)和(b)中,隨著數據和參數量的增加,下游任務性能呈現顯著上升曲線。這一結果表明,通過提取高質量的特徵作為引導信號,基礎模型可以充分發揮其在 SAR 目標識別中的潛力。但由於數據量限制,模型在擴展訓練輪數時傾向於過擬合。此外,SAR 圖像雜訊和低解析度進一步加劇了過擬合。

首個公開發表的SAR圖像目標識別基礎模型! - 天天要聞
圖 6. SARATR-X 在數據集大小、模型參數量和訓練輪數方面的可擴展性。雖然方法受益於這三個方面,但需要注意的是,由於數據集的大小,過大的訓練輪數經常會導致過擬合。

科學分類資訊推薦

認識2種丁酸衍生物 - 天天要聞

認識2種丁酸衍生物

丁酸鈉與三丁酸甘油酯作為丁酸的衍生物,在動物消化道中被分解成丁酸和其他物質。他們的主要生物學功能來源於丁酸。腸道上皮細胞優先選用丁酸作為能量源。作為一種短鏈脂肪酸,丁酸在進入小腸後部分以非離子形式被腸道黏膜細胞吸走,直接為腸黏膜細胞生長和增
米東區:這一電化學儲能電站項目推進中 - 天天要聞

米東區:這一電化學儲能電站項目推進中

(米東區融媒體中心記者:黃鵬報道)7月9日,記者在位於米東區北部沙漠東北部的新疆華電烏魯木齊光伏基地100萬千瓦/400萬千瓦時獨立新型儲能示範項目現場看到,工作人員正在對設備進行吊裝調試。該項目總投資約30億元,是全國單體容量最大的電化學
腦圖譜大科學計劃時機已來!中國科學家十項成果給大腦繪高清地圖 - 天天要聞

腦圖譜大科學計劃時機已來!中國科學家十項成果給大腦繪高清地圖

人類大腦是一個非常複雜的組織,要理解大腦的工作原理首先要了解其中的細胞種類和神經聯接規律,近日中國科學家聯合發布系列成果給大腦繪製「高清地圖」。 7月10日深夜,中國科學家聯合發布介觀腦圖譜系列成果,實現從嚙齒類到靈長類大腦的跨越。10項成果以專題論文集的形式集中發表在國際學術期刊《細胞》《神經元》《發育...
國際突破!中大培育光子「雙胞胎」,輻射強度達單光子水平 - 天天要聞

國際突破!中大培育光子「雙胞胎」,輻射強度達單光子水平

7月9日,《自然》雜誌(Nature)在線發表中山大學物理學院王雪華、劉進教授團隊主導的最新研究成果。該團隊提出了一種全新的腔誘導自發雙光子輻射方案,在國際上率先實現與單光子輻射強度相當的自發雙光子輻射,研發出保真度高達99.4%的按需觸發
微型肝臟,是未來希望,還是科技烏托邦 - 天天要聞

微型肝臟,是未來希望,還是科技烏托邦

文︱陸棄隨著全球器官移植需求持續攀升,傳統器官捐獻嚴重不足的問題愈發凸顯。美國初創企業LyGenesis推出了一個令人振奮的創新方案:通過將供體肝細胞注射至患者體內淋巴結中培育「微型肝臟」,嘗試在患者自身體內製造可替代肝臟功能的器官。
「軟黃金」冬蟲夏草,你真的了解嗎? - 天天要聞

「軟黃金」冬蟲夏草,你真的了解嗎?

冬蟲夏草千年傳承的滋補良藥採藥人的尋覓自公元780年起冬蟲夏草便以其獨特的藥用價值被載入史冊從《藏本草》到《中國藥典》均有記載李時珍更將其譽為「人身不老葯」贊其兼具蟲之陽剛與草之陰柔成為中藥中獨一無二的「陰陽同補」聖品享有「東方聖草」「葯中
【鏈博傳奇】中國中車:塑軌道之「鏈」,與世界同行 - 天天要聞

【鏈博傳奇】中國中車:塑軌道之「鏈」,與世界同行

中國中車集團有限公司(以下簡稱「中國中車」)是中國軌道交通裝備領域的「鏈」主企業,是全球規模領先、品種齊全、技術一流的高端裝備製造商和系統解決方案提供商,清潔能源裝備骨幹企業。當前,中國中車搭建了世界領先的軌道交通裝備產品技術研發平台,構建了完整的軌道交通裝備產業體系,開創了軌道交通裝備和清潔能源裝...
全國AI精英宜賓對決 長江首城創新大賽點燃人工智慧新引擎 - 天天要聞

全國AI精英宜賓對決 長江首城創新大賽點燃人工智慧新引擎

中新網四川新聞7月11日電(吳平華 楊錦 )智匯長江首城,共享成長價值,10日,由宜賓市科學技術局、宜賓市數據局、宜賓市高鐵南片區開發建設指揮部辦公室聯合主辦,北京中關村信息穀資產管理有限責任公司承辦的「長江首城宜創匯」協同創新大賽人工智慧