當前有關對抗樣本的研究普遍認為基於單圖像迭代優化的簡單方法很難實現有目標 (targeted) 對抗攻擊的遷移性,所以不得不訴諸於大量額外數據來訓練多個生成模型的複雜方法。然而,我們發表在NeurIPS 2021的工作卻發現事實並非如此:當簡單方法在擁有足夠迭代次數保證收斂的前提下,利用非常簡單的目標函數,Logit Loss,來替代目前常用的交叉熵損失函數(Cross Entropy Loss),就足以使得其性能碾壓當前最強的複雜方法。此外,我們也對當前評估遷移性的常用場景進行了反思、改進。具體來說,我們發現當前評估場景設置過於簡單、不現實,導致很多評估結果存在誤導性。因此我們提出了三種更具挑戰性、更現實的場景,為未來相關研究提供參考。
本期AI TIME PhD直播間,我們邀請到萊德國亥姆霍茲信息安全中心 (CISPA) 博士後研究員——趙正宇,為我們帶來報告分享《對有目標對抗圖像遷移性的反思》。
趙正宇:德國亥姆霍茲信息安全中心 (CISPA) 博士後研究員。博士畢業於荷蘭Radboud 大學。研究方向涉及計算機視覺的安全與隱私問題,主要包括對抗樣本 (Adversarial Examples),訓練樣本投毒 (Data Poisoning),以及訓練樣本成員推理 (Membership Inference)。
01
Background of Computer Vision
計算機視覺是通過訓練計算機來模仿人類視覺,以實現對大千世界的感知。
計算機視覺已被廣泛應用在我們的日常生活中:比如自動駕駛、醫療成像和人臉識別等。
在計算機視覺中,一個典型的圖像識別任務主要由以下三個步驟組成:
首先,計算機攝像頭捕捉現實場景並存儲成RGB三維圖像矩陣的形式;
然後,我們會用大量帶有正確標籤的圖像去訓練計算機學習如何識別;
最後,經過了訓練之後的計算機就可以用來識別新的圖像。
眾所周知,隨着深度學習技術的發展,計算機視覺在特定任務上的識別能力在2015年前後已經可以超越人類。
然而,在面對一些非常規場景下拍攝的圖像時,計算機的識別能力會急劇下降。如圖所示,雖然人眼可以無視各種噪聲識別出這隻黃色的鳥,但是計算機視覺卻很難做到。
為了研究這種現象產生的原因,從而進一步理解計算機視覺的不足,研究人員開始了對於對抗圖像的研究。那麼接下來就讓我們看下什麼是對抗圖像。
02
Running Time of Frank-Wolfe
對抗圖像是通過篡改一張正常圖像而產生的人造圖像,計算機視覺模型不再能夠正確識別出該圖像的真實內容。
如上圖所示,一個常規的模型訓練過程通過輸入一張正常的貓貓圖像x0,通過優化模型參數θ來最小化損失函數J(x,y0=cat)的輸出,從而使得模型可以學習如何正確識別x0。此訓練過程可以表示成如下形式:
產生對抗圖像的過程可以被看作是上述訓練過程的一個鏡像操作。也就是說,為了使得已經訓練好的模型不再能夠正確識別出輸入圖像x0中的貓貓,我們會通過優化輸入圖像x0來最大會損失函數J(x,y0=cat)的輸出。此產生對抗圖像的過程可以表示成如下形式:
由於僅僅是讓模型不再輸出正確的識別結果y0=cat,我們把這種對抗過程稱為無目標(untargeted)對抗。同樣地,我們也可以通過如下方式來讓模型輸出一個特定的錯誤識別結果,比如yt=dog。我們稱之為有目標(targeted)對抗。
除此之外,產生對抗圖像還需要滿足一個基本條件,那就是不帶有明顯的篡改痕迹。這種條件一般通過如下限制對抗圖像和原始圖像的Lp距離來實現:
總結來說,產生有目標對抗圖像的過程可以表示成如下優化問題:
當前研究最常使用如下所示的基於迭代的梯度下降方法來實現這個優化:
03
Data Structure
很顯然,在上述優化過程中,我們有一個很強的假設:我們可以獲取到模型的梯度。這種情況我們稱為白盒對抗。
而在現實(黑盒)對抗場景中,我們很難得知模型的技術細節,更別說可以獲得它的具體梯度。所以在現實對抗場景中,我們需要在本地的白盒模型上優化得到對抗圖像,同時使得它也能夠欺騙未知黑盒模型。我們把對抗圖像的這種能力叫做它的Transferability(遷移性)。
當前有很多基於上述I-FGSM來提高對抗圖像遷移性的迭代方法。他們大概可分為如下兩類。
第一類是從優化梯度的角度,比如通過相鄰兩次迭代產生的梯度進行累加可以使得梯度方向更加穩定,不易落入局部最優:
第二類是從數據增廣的角度,比如在每次迭代中都將經歷了不同變換的圖像作為輸入。這同樣能夠使得梯度更具有泛化性,即生成的對抗圖像更具有遷移性:
除了上述基於I-FGSM的迭代方法之外,最近一些研究人員還提出基於生成模型的更為複雜的方法。
如下圖所示,如果我們需要生成目標類別為yt的有目標對抗圖像,我們需要訓練一個生成模型,使得從yt類別對應的自然訓練圖像與其生成的對抗圖像圖像分佈儘可能靠近。
最後,將任何一張正常(測試)圖像輸入到這個訓練好的生成模型,就可以得到它對應的目標類別為yt的對抗圖像。
相對於迭代方法來說,生成模型方法不可避免地消耗更多的數據以及計算資源
從數據的角度來看,迭代方法只需要測試階段的單張輸入圖像,而生成模型方法需要大量數據進行額外訓練;
從模型的角度來看,當產生對應n個不同目標類別yt的對抗圖像時,迭代方法只需使用同一個白盒模型,而生成模型方法需要訓練n個不同的針對特定yt的生成模型。
研究人員自然也發現,在消耗了大量額外數據以及計算資源的前提下,生成模型方法取得的遷移性效果要比簡單的迭代方法好很多。
04
Our New Insights into Targeted Transferability
我們對當前針對有目標對抗圖像的研究進行回顧,發現只要對傳統的迭代方法進行微小的改動,就能取得甚至超出生成模型方法的遷移性表現。
如下表所示,這種遷移性的差距在更具挑戰性的小圖像距離場景下更為突顯。
詳細來說,我們發現不同於無目標的場景,生成具有遷移性的有目標對抗圖像需要上百次的迭代來完成優化算法的收斂。
如下圖所示,紅線代表的非目標場景在20次以前就已經收斂到近乎100%的遷移性,而對於有目標的場景還袁沒有達到最優效果。然而現有研究中卻偏偏有目標的場景也停止在了20次迭代以下,所以自然也就不能獲得很好的遷移效果。通過增加迭代次數,我們發現有目標場景的遷移性也得到了顯著的提高。
雖然增加迭代次數可以一定程度上提高遷移性,我們卻發現目前常用交叉熵損失函數(Cross Entropy Loss)因為梯度下降的缺陷而不適用於我們的大量迭代場景。
如下公式所示,隨着迭代次數的增加,目標類別yt對應的概率pt會逐漸趨向於1,而損失函數對應的梯度卻不斷降低直至最後趨向於0。
這種現象也可以通過下圖更直觀地理解。
正是由於這種缺陷的存在,使用交叉熵損失函數(Cross Entropy Loss)對遷移性的優化即使使用大量迭代也會很快停滯。由此,我們提出一個簡單有效的Logit 損失函數來避免上述現象的發生。
如下公式所示,Logit損失函數的梯度一直固定為1,從而使得在應用大量迭代次數時也不會出現優化停滯。
從下圖展示的遷移性結果來看,使用Logit損失函數雖然在迭次數很少時與交叉熵損失函數區別不帶,但是隨着迭代次數的增加,它的優勢就逐漸顯現出來。
至此,我們提出通過增加迭代次數和應用Logit損失函數的方法來大幅提升傳統迭代方法的遷移性。接下來我們還對當前研究中常用評估場景進行了反思和提高。
我們對評估場景的反思主要從以下兩個維度出發:
模型的多樣性
我們發現當前遷移性評估場景過於簡單,因為涉及到的白盒和黑盒模型在結構上都是非常相似的。
如下表所示,在這種簡單場景下,不同方法在迭代次數足夠的前提下都能取得90%左右的高遷移性。這樣高飽和的表現使得不同方法的優劣不能夠很好體現出來。
所以我們提出涉及更多樣模型結構的,更具挑戰性的遷移場景。
如下圖所示,在這種更具挑戰性的新場景下,我們發現新提出的Logit 損失函數取得了比其他兩種現有方法更好的效果。
我們進一步測試了更為嚴苛的現實遷移場景:我們直接把從白盒模型上優化得到的對抗圖像上傳到Google Cloud Vision API上測試其對抗效果,同樣得到了Logit 損失函數表現最好的結論。
從如下截圖的例子可以看出,雖然對抗圖像相對於原始圖像看起來只是多了一些不規則的噪聲,但是卻足以欺騙黑盒的Google Cloud Vision API到我們預先設定的目標類(yt=boat)。
當前研究中的評估場景大多隻測試隨機選取對抗目標類別yt的情況,而我們認為對於同一張圖像,不同yt對應的遷移性也會有所差異。
特別地,我們人為從2nd類別變動到1000th類別時,遷移性將會隨之變得更加難以實現。如下表格展示的結果驗證了我們的這個想法。
基於如上結論,我們可以通過將yt設置成序列底部類別(比如1000th)使得評估更加具有挑戰性,而不再僅僅限於隨機選取yt的簡單評估場景。
同時我們也可以發現,即使是在最難的情況下,我們的Logit損失函數也依舊錶現最好。
05
總結
1、我們發現通過微小的改動 (包括增加迭代次數和用Logit損失函數來替代傳統交叉熵損失函數),現有簡單的迭代方法竟然可以取得媲美複雜的生成模型方法的遷移性效果。
2、我們提出了對遷移性評估更具挑戰性、更現實的新場景。這種新場景主要考慮到了模型的多樣性以及對抗目標類別的多樣性。
06
展望
1、如下圖所示,我們發現當設計某些特定模型結構(比如Inception)時,遷移性的效果尤其差,未來我們需要更多的探究去理解和解決這個問題。
2、雖然生成模型方法需要大量的數據和計算資源來訓練生成模型,它卻能夠在測試階段只通過一次向前操作就能生成對抗圖像。
相反,雖然迭代方法設計更為輕量化,在測試階段卻難免需要大量的迭代優化。
所以在未來我們可以考慮如何結合兩種方法的優點,實現既快速又相對節省數據、計算資源的方法。
提醒
論文鏈接:
https://arxiv.org/abs/2012.11207
論文題目:
On Success and Simplicity: A Second Look at Transferable Targeted Attacks