2020年12月29日20:50:05 科技 1106

關註：耕智能，深耕AI脫水乾貨

作者：missinglink.ai 編譯：ronghuaiyang 來源：AI公園

轉載請聯繫作者

提要：本文介紹使圖像分割的方法，包括傳統方法和深度學習方法，以及應用場景。

基於人工智慧和深度學習方法的現代計算機視覺技術在過去10年里取得了顯著進展。如今，它被用於圖像分類、人臉識別、圖像中物體的識別、視頻分析和分類以及機器人和自動駕駛車輛的圖像處理等應用上。

許多計算機視覺任務需要對圖像進行智能分割，以理解圖像中的內容，並使每個部分的分析更加容易。今天的圖像分割技術使用計算機視覺深度學習模型來理解圖像的每個像素所代表的真實物體，這在十年前是無法想像的。

深度學習可以學習視覺輸入的模式，以預測組成圖像的對象類。用於圖像處理的主要深度學習架構是卷積神經網路(CNN)，或者是特定的CNN框架，如AlexNet、VGG、Inception和ResNet。計算機視覺的深度學習模型通常在專門的圖形處理單元(GPU)上訓練和執行，以減少計算時間。

什麼是圖像分割？

圖像分割是計算機視覺中的一個關鍵過程。它包括將視覺輸入分割成片段以簡化圖像分析。片段表示目標或目標的一部分，並由像素集或「超像素」組成。圖像分割將像素組織成更大的部分，消除了將單個像素作為觀察單位的需要。圖像分析有三個層次：

分類 - 將整幅圖片分成「人」、「動物」、「戶外」等類別

目標檢測 - 檢測圖像中的目標並在其周圍畫一個矩形，例如一個人或一隻羊。

分割 - 識別圖像的部分，並理解它們屬於什麼對象。分割是進行目標檢測和分類的基礎。

語義分割 vs. 實例分割

在分割過程本身，有兩個粒度級別：

語義分割 - 將圖像中的所有像素劃分為有意義的對象類。這些類是「語義上可解釋的」，並對應於現實世界的類別。例如，你可以將與貓相關的所有像素分離出來，並將它們塗成綠色。這也被稱為dense預測，因為它預測了每個像素的含義。

實例分割 - 標識圖像中每個對象的每個實例。它與語義分割的不同之處在於它不是對每個像素進行分類。如果一幅圖像中有三輛車，語義分割將所有的車分類為一個實例，而實例分割則識別每一輛車。

傳統的圖像分割方法

還有一些過去常用的圖像分割技術，但效率不如深度學習技術，因為它們使用嚴格的演算法，需要人工干預和專業知識。這些包括:

閾值 - 將圖像分割為前景和背景。指定的閾值將像素分為兩個級別之一，以隔離對象。閾值化將灰度圖像轉換為二值圖像或將彩色圖像的較亮和較暗像素進行區分。

K-means聚類 - 演算法識別數據中的組，變數K表示組的數量。該演算法根據特徵相似性將每個數據點(或像素)分配到其中一組。聚類不是分析預定義的組，而是迭代地工作，從而有機地形成組。

基於直方圖的圖像分割 - 使用直方圖根據「灰度」對像素進行分組。簡單的圖像由一個對象和一個背景組成。背景通常是一個灰度級，是較大的實體。因此，一個較大的峰值代表了直方圖中的背景灰度。一個較小的峰值代表這個物體，這是另一個灰色級別。

邊緣檢測 - 識別亮度的急劇變化或不連續的地方。邊緣檢測通常包括將不連續點排列成曲線線段或邊緣。例如，一塊紅色和一塊藍色之間的邊界。

深度學習如何助力圖像分割方法

現代圖像分割技術以深度學習技術為動力。下面是幾種用於分割的深度學習架構：

使用CNN進行圖像分割，是將圖像的patch作為輸入輸入給卷積神經網路，卷積神經網路對像素進行標記。CNN不能一次處理整個圖像。它掃描圖像，每次看一個由幾個像素組成的小「濾鏡」，直到它映射出整個圖像。

傳統的cnn網路具有全連接的層，不能處理不同的輸入大小。FCNs使用卷積層來處理不同大小的輸入，可以工作得更快。最終的輸出層具有較大的感受野，對應於圖像的高度和寬度，而通道的數量對應於類的數量。卷積層對每個像素進行分類，以確定圖像的上下文，包括目標的位置。

集成學習將兩個或兩個以上相關分析模型的結果合成為單個。集成學習可以提高預測精度，減少泛化誤差。這樣就可以對圖像進行精確的分類和分割。通過集成學習嘗試生成一組弱的基礎學習器，對圖像的部分進行分類，並組合它們的輸出，而不是試圖創建一個單一的最優學習者。

DeepLab 使用DeepLab的一個主要動機是在幫助控制信號抽取的同時執行圖像分割 —— 減少樣本的數量和網路必須處理的數據量。另一個動機是啟用多尺度上下文特徵學習 —— 從不同尺度的圖像中聚合特徵。DeepLab使用ImageNet預訓練的ResNet進行特徵提取。DeepLab使用空洞卷積而不是規則的卷積。每個卷積的不同擴張率使ResNet塊能夠捕獲多尺度的上下文信息。DeepLab由三個部分組成：

Atrous convolutions — 使用一個因子，可以擴展或收縮卷積濾波器的視場。

ResNet — 微軟的深度卷積網路(DCNN)。它提供了一個框架，可以在保持性能的同時訓練數千個層。ResNet強大的表徵能力促進了計算機視覺應用的發展，如物體檢測和人臉識別。

Atrous spatial pyramid pooling (ASPP) — 提供多尺度信息。它使用一組具有不同擴展率的複雜函數來捕獲大範圍的上下文。ASPP還使用全局平均池(GAP)來合併圖像級特徵並添加全局上下文信息。

SegNet neural network 一種基於深度編碼器和解碼器的架構，也稱為語義像素分割。它包括對輸入圖像進行低維編碼，然後在解碼器中利用方向不變性能力恢復圖像。然後在解碼器端生成一個分割圖像。