Abstract

本文針對遙感圖像中的開放集飛機檢測問題展開研究,該任務要求模型能夠在動態環境下,同時識別已知(經過訓練)和未知(未經過訓練)的目標類別。由於背景複雜且目標分辨率較低,難以在對應位置生成高質量的偽標籤。為此,我們提出了一種基於邊緣信息提取的開放集目標檢測框架(Edge Information Extraction-based Open-Set Target Detection, EI-OSTD),通過在檢測過程中引入邊緣特徵來增強對未知類別的檢測能力。

EI-OSTD 框架包含兩個關鍵組件:
(1) 自適應預選模塊(adaptive pre-selection module):利用編碼器的輸出特徵優化已知類別的候選框生成,從而提升檢測精度;
(2) 偽標籤選擇策略(pseudo-label selection strategy):利用邊緣信息為未知類別生成高質量的偽標籤,從而提升未見目標(unseen targets)的召回率。

在 MAR20 和 SAR-AIRcraft1.0 數據集上的實驗結果表明,EI-OSTD 不僅在已知類別檢測方面保持了優異性能,而且在未知類別識別上顯著優於現有方法。

關鍵詞——開放集飛機檢測;偽標籤選擇;候選框生成

Introduction

目標檢測是圖像處理領域中的一項關鍵任務,其目標是在圖像中準確地定位並識別感興趣的目標 [1]–[4]。在遙感領域中,可以從空中視角檢測諸如車輛、船隻和飛機等目標 [5]–[7]。近年來,隨着深度學習的發展,卷積神經網絡(CNN)逐漸成為遙感圖像目標檢測的主流方法 [1]、[8],其中包括以 Faster R-CNN 為代表的兩階段網絡 [9]–[12],以及以 YOLO 為代表的一階段網絡 [13]–[17]。隨着注意力機制的引入,以 Detection Transformer(DETR)[18]–[20] 為代表的新興網絡框架取得了具有競爭力的性能。

目標檢測任務的訓練標註通常針對感興趣的對象。然而,標註的缺乏引發了開放集檢測問題:模型在訓練中未學習到的目標類別會在測試時被誤識別為背景或已知類別 [21]、[22]。
根據訓練圖像中標註缺失的不同情況,開放集檢測假設主要分為兩種類型:UU(Unknown Unknown)和 UM(Unlabeled Mixed)[23]。其中,UU 假設指未知的新類別目標在訓練圖像中完全未出現,只會在測試階段出現。
解決這種假設的方法類似於開放集識別 [24]–[26],即在訓練時將所有訓練類別和背景都視為已知類別,而置信度較低的目標會被拒絕並歸為未知新類
例如,OpenDet 利用對比學習壓縮高密度已知類的特徵,並引入一個未知概率學習器來顯式建模未知類出現的可能性 [27]。PROB 在 DDETR [20] 的基礎上,將目標性預測與類別預測解耦,從而避免依賴背景負樣本,提升了開放集檢測性能 [28]。UU 假設的潛在問題是新類別識別的範圍可能過於寬泛,從而削弱檢測任務的目標導向性。

這兩個方法,都是把類別置信度低的物體作為新類別,而不是作為背景

另一方面,由於目標類型隱私以及標註成本等問題,UM 假設認為訓練圖像中的目標類型並未完全標註,即已知類別與未知類別在訓練圖像中共存。在此基礎上,一些開放集檢測算法會在可能存在未標註目標的區域生成候選框(偽標籤),並將這些候選框視為未知新類參與訓練,從而增強檢測頭對新類的識別能力。例如,OW-DETR 提出了一種基於注意力機制的偽標籤生成方案,並引入了前景對象分支和未知類分類頭 [29];(這是不是個東西?這個東西是什麼?)
CAT 提出了自適應偽標籤機制,結合模型驅動(已識別來的特徵)和輸入驅動(可能成為特徵的突兀的物體)的建議,並在訓練過程中動態調整權重 [30];
OPODet 在偽標籤選擇時引入具有方向感知能力的 RPN(區域建議網絡),從而增強了對未知類的檢測能力 [31]。從實際應用角度看,UM 假設更為常見,也因此獲得了更多研究關注。此外,該假設還可以擴展到開放世界增量學習場景中,在該場景中目標對象的類別會被不斷標註和擴充 [32]、[33]。

目前針對遙感圖像的開放集目標檢測研究仍然較少。在已有任務中,粗粒度檢測任務的目標類型較多,當引入開放集假設時,由於其標註簡單且完整,新類別識別的任務導向性較弱,因此更適合採用 UU 假設,而這並非本文的研究方向。相比之下,細粒度檢測任務中的訓練目標類型更加相似,且由於缺乏關於相關目標的充分先驗知識或全面標註的高昂成本,標註難度更大。因此,細粒度遙感圖像目標檢測更適合採用 UM 假設,這也是本文研究的重點。在眾多細粒度遙感檢測任務中,飛機檢測是一個典型示例,其機型多樣但外觀相似。因此,本文聚焦於遙感圖像中的開放集目標檢測方法,主要以飛機為研究對象。圖 1 以飛機為例説明了開放集檢測問題。

簡單來説,UU假設就是防止把本來我們不關注的物體識別為已知物體,通過不同的方法,把其他類別,我們不關注的,放到背景裏面。
UM 假設是把新的類別生成一個偽標籤來學習。

Related Work

A. 基礎網絡框架

基線模型採用了 DETR 系列網絡 [18],這是一種基於 Transformer 的目標檢測框架 [37]。該網絡由一個編碼器和一個解碼器組成,用於分別處理輸入和輸出序列。多頭注意力機制能夠捕獲圖像中的上下文關係,從而實現端到端的預測。DETR 在解碼器中定義了一組固定的可學習查詢(learnable queries),每個查詢用於預測圖像中的不同區域,以解決目標分佈孤立的問題。經過訓練後,網絡能夠自動關注特徵豐富的區域,這有助於在未知類別檢測中生成偽標籤。
自注意力機制將查詢與目標建立關聯,省去了錨框(anchor boxes)和非極大值抑制(NMS)[38] 的過程,從而提高了檢測的魯棒性和推理速度。

然而,DETR 的設計目標是捕獲圖像中的所有目標,因此在所有特徵像素上的注意力權重幾乎相同。這導致每個查詢需要花費更多時間學習稀疏但關鍵的位置,同時這種均勻的權重分佈也會影響檢測性能。為了解決這一問題,Deformable DETR(DDETR)[20] 引入了可變形注意力機制,使每個查詢僅與部分像素交互,併為這些像素分配不同權重,從而加速收斂過程。
在本文中,DDETR 被用作基礎檢測框架。

B. 開放集檢測機制

傳統的目標檢測(OD)主要關注從預定義的類別集合中識別物體。常見方法大體可分為兩類:兩階段(two-stage)和單階段(one-stage)。
兩階段方法(如 Faster R-CNN)首先生成候選區域,然後對這些區域進行分類,具有較高的檢測精度但計算效率較低;單階段方法(如 YOLO)在單一階段中完成檢測,推理速度更快,但精度通常略有下降。
近年來,基於 Transformer 的模型(如 DETR 和 Deformable DETR)逐漸取代傳統 CNN 框架,在檢測精度和可擴展性上都表現出優越性能。
然而,這些模型在檢測訓練中未出現的新類別時表現較差。
這一侷限性促使研究者開始關注 開放集目標檢測(Open-Set Object Detection, OSOD),其目標是在檢測已知類別的同時識別未知類別。

早期的 開放集識別(Open-Set Recognition, OSR) 研究為 OSOD 奠定了基礎,其主要思想是處理來自未見類別的輸入。
OSR 方法通常會拒絕與已知類別差異較大的輸入,將其標記為“未知”。
一個典型的例子是 OpenMax [39],該方法在 softmax 函數的基礎上進行了調整,以適應未知類別。早期的 開放集識別(Open-Set Recognition, OSR) 研究為 OSOD 奠定了基礎,其主要思想是處理來自未見類別的輸入。
OSR 方法通常會拒絕與已知類別差異較大的輸入,將其標記為“未知”。
一個典型的例子是 OpenMax [39],該方法在 softmax 函數的基礎上進行了調整,以適應未知類別。

近期的研究進展包括:

LORD [40]:在訓練過程中建模開放空間(open space),提高對未知類的識別能力;
基於對比學習的 OSR [41]:通過學習分離已知類與未知類;
CIOSR [42]:利用因果關係應對真實世界的挑戰。
然而,這些方法主要關注分類任務,無法處理 OSOD 所需的目標定位問題。

近年來,OSOD 方法開始利用未匹配預測、注意力分數或對比學習機制來建模未知類別。例如:

**OW-DETR [29] **利用 Deformable DETR 中未匹配的預測結果與注意力圖生成未知目標的偽標籤,展現了 Transformer 架構在開放集檢測中的潛力;

DDETR 的注意力引導結構同樣為開放集檢測提供了強大基礎;

為優化偽標籤選擇,一些方法將 選擇性搜索(Selective Search) [43] 與高注意力區域和生成框結合 [30],從而獲得更魯棒的偽標籤(見圖 2)

Method

在本節中,我們將詳細介紹所提出的 EI-OSTD 方法。首先,第三節 A 小節將對 EI-OSTD 網絡的組成部分進行全面説明,並解釋其前向傳播與反向傳播的過程。隨後,第三節 B 小節將介紹自適應預選擇模塊(Adaptive Pre-selection Module)的工作原理,闡述其在整個網絡中的作用與重要性。最後,第三節 C 小節將介紹一種基於邊緣檢測的偽標籤選擇策略,該策略利用邊緣檢測來篩選偽標籤,從而有效提升網絡在開放集遙感目標檢測任務中的性能。

【開源】近期遙感航空影像的檢索、檢測、跟蹤、計數、分類相關工作_目標檢測

【開源】近期遙感航空影像的檢索、檢測、跟蹤、計數、分類相關工作_目標檢測_02