Micro-YOLO：探索目標檢測壓縮模型的有效方法（附論文下載）

2025年02月15日00:12:03 科技 1935

關注並星標

從此不迷路

計算機視覺研究院

Micro-YOLO：探索目標檢測壓縮模型的有效方法（附論文下載） - 天天要聞

公眾號ID｜計算機視覺研究院

學習群｜掃碼在主頁獲取加入方式

論文地址：https://www.scitepress.org/Papers/2021/102344/102344.pdf

計算機視覺研究院專欄

Column of Computer Vision Institute

深度學習模型在目標檢測的性能上取得了重大突破。然而，在傳統模型中，例如Faster R-CNN和YOLO，由於計算資源有限和功率預算緊張，這些網路的規模使其難以部署在嵌入式移動設備上。

一、前言

深度學習領域的加速發展極大地促進了目標檢測的發展，其在人臉檢測、自動駕駛、機器人視覺和視頻監控等方面的廣泛應用。隨著目標檢測的蓬勃發展，近年來提出了幾種深度卷積神經網路模型，例如R-CNN、SSD和YOLO等。然而，隨著網路變得越來越複雜，這些模型的規模不斷增加，這使得在現實生活中將這些模型部署到嵌入式設備上變得越來越困難。因此，開發一種高效快速的物體檢測模型以在不影響目標檢測質量的情況下減小參數大小至關重要。

二、背景

隨著目標檢測網路系列不斷變得更加複雜，減少權重參數和計算成本變得很重要。模型壓縮方法分為低秩分解、知識蒸餾、剪枝和量化，其中剪枝已被證明是通過去除冗餘參數來降低網路複雜度的有效方法（A survey of model compression and acceleration for deep neural networks）。

為了解決目標檢測網路問題，有幾種最先進的工作技術可以減少YOLO架構中的參數數量。(YOLO-LITE: a real-time object detection algorithm optimized for non-GPU computers) 開發了YOLO-Lite網路，其中從YOLOv2-tiny中刪除了批量歸一化層以加速目標檢測。該網路在PASCAL VOC 2007和COCO數據集上分別實現了33.81%和12.26%的mAP。(Yolo nano: a highly compact you only look once convolutional neural network for object detection) 創建了一個高度緊湊的網路YOLO-nano，它是一個基於YOLO網路的8位量化模型，並在PASCAL VOC 2007數據集上進行了優化。該網路在PASCAL VOC 2007數據集上實現了3.18M模型大小和69.1%mAP。

三、概要

因此，研究者就提出了一種新的基於輕量級CNN的目標檢測模型，即基於YOLOv3-Tiny的Micro-YOLO，它在保持檢測性能的同時顯著減少了參數數量和計算成本。研究者建議將YOLOv3-tiny網路中的卷積層替換為深度分布偏移卷積(DSConv：https://arxiv.org/abs/1901.01928v1)和帶有squeeze和excitation塊的移動反向瓶頸卷積 (MBConv：主要源自於EfficientNet)，並設計漸進式通道級剪枝演算法以最小化數量參數並最大化檢測性能。因此，與原始YOLOv3-tiny網路相比，所提出的Micro-YOLO網路將參數數量減少了3.46倍，乘法累加操作(MAC)減少了2.55倍，同時在COCO數據集上評估的mAP略微減少了0.7%。

四、新框架介紹

Micro-YOLO

為了減小網路的大小，研究者探索了可選擇的輕量級卷積層來替代YOLO網路中的卷積層Conv。MobileNet網路採用兩個輕量級卷積層（a）DSConv和（b）MBConv。

如上圖(a) 所示，DSConv執行兩種類型的卷積：(i) 深度卷積和 (ii) 逐點卷積，這可以顯著降低網路的模型大小和計算成本。上圖(b) 所示，MBConv的結構是一個1×1的channel expansion卷積，然後是深度卷積和一個1×1的channel reduction層。它利用squeeze和excitation塊，這是一個分支，由squeeze階段的全局平均池化操作和excitation階段的兩個小FC層組成在深度卷積和通道之間還原層。由於輸出通道的數量不等於輸入通道的數量，研究者在MBConv中移除了殘差連接，MBConv層在輸入和輸出處提供緊湊的表示，同時在內部將輸入擴展到更高維的特徵空間以增加非線性變換的表達能力。因此，與DSconv層相比，MBconv層提供了更好的壓縮網路，而不會降低檢測精度。

這些層之間的計算成本，即Conv層（Cs）、DSConv層（Cds）和MBConv層（Cmb）可以分別用以下公式表示：

其中k表示內核大小，Cin表示輸入通道數，Cout表示輸出通道數，W和H表示特徵圖的寬度和高度，α和β分別表示MBConv中的擴展因子和縮減因子。

Progressive Channel Pruning

在確定新提出的Micro-YOLO網路的架構後，研究者可以通過使用剪枝技術進一步減少權重參數。在提出的工作中，研究者採用了粗粒度剪枝，因為DSConv和MBConv層主要由1×1內核大小組成，這為細粒度剪枝留下了最小的空間。(Rethinking the value of network pruning) 表明修剪後的架構本身，而不是一組繼承的「重要」權重，對最終模型的效率更重要，這表明在某些情況下修剪可能是有用的一種架構搜索範式。因此，研究者提出了一種漸進式剪枝方法來在修改後的網路中搜索「更薄」的架構。具體偽代碼流程如下：