美國平權運動持續發酵,微軟、亞馬遜叫停為警方提供面部識別服務

繼 IBM 之後,亞馬遜、微軟也加入了抗議偏見和執法暴行的隊伍。

6月12日,微軟宣布開始禁止將面部識別產品賣給美國警察部門,其總裁 Brad Smith 表示,“除非有強有力的、基於人權的國家法律,否則我們不會將該技術出售給警察。”

6月10日,亞馬遜發布公告稱,未來一年,將暫停警方使用面部識別平台 Amazon Rekognition 的權限,“我們希望這一為期一年的暫停,可以使國會有足夠的時間執行適當的規則。”

最早參與進來的巨頭是 IBM。6月8日,IBM首席執行 Arvind Krishna 給美國國會的信中寫到,將不再提供通用的面部識別或分析軟件,並向媒體表示,IBM 也將不再開發或研究該技術。原因是擔心人臉識別技術會帶來大規模監視、種族歧視、侵犯基本人權或自由等傷害。


面部識別平台引發多次爭議

除了 IBM 說不會再開發人臉識別技術。亞馬遜和微軟並沒有停止向全社會提供人臉識別產品,他們在避免站到美國和全球抗議種族主義與警察暴行活動的對立面。

微軟12日在《華盛頓郵報》做了三個主題的直播,討論民族主義和種族歧視問題,並宣布不再向警察出售面部識別系統。Brad Smith 在直播中呼籲制定規範的面部識別國家法律,“我們需要國會才去行動,而不僅是科技公司,這是我們保證保護人類生命的唯一途徑。”


亞馬遜則表示,兒童保護慈善機構 Thorn,國際失蹤與受虐兒童中心,打擊人口販賣機構 Marinus Analytics 還可以繼續使用 Rekognition。

沒有全面叫停並不代表沒有爭議。人臉識別技術的門檻已經越來越低,隨之技術應用風險也在增加,但很多時候,大公司不願意麵對技術帶來的負面結果。

微軟還未發布正式的書面通告,沒有明確警方禁用產品的時限和具體名稱。我們以亞馬遜2016年12月發布的 Rekognition 平台為例,說說人臉識別技術存在的問題和爭議。

上線之後,亞馬遜多次高調宣傳,Rekognition 會被很好地應用在執法部門,以及一些人口保護組織的打擊犯罪行動中。亞馬遜稱使用 Rekognition 非常簡單。之前曾有開發者嘗試,使用 Rekognition 提供的 API,再編寫一個 Python 腳本,做人臉檢測和識別。該開發者調用了 Amazon 提供的函數庫,將一張單人圖片發送到 Rekognition API,最後識別結果中包括人臉的邊界位置、年齡估計、面部情緒、性別等眾多信息。

雖然 Rekognition 可以做到讓人臉識別變得簡單,但它的準確性多次遭到質疑。

2018年夏天,美國公民自由聯盟 ACLU 對 Rekognition 做了測試,發現在535個國會議員中,有28名議員的面部無法被正確識別。隨後亞馬遜反駁了此觀點,稱 ACLU 沒有公布數據集,且使用的是 Rekognition 默認80%置信度閾值的 API,建議在執法機構應該使用置信度不低於99%的設置。

亞馬遜還表示,會繼續向警方提供該技術。


2019年1月,麻省理工學院媒體實驗室的研究人員發現,Rekognition 在識別女性和深膚色面孔時,更容易出錯——Rekognition 在識別淺膚色男性上無錯誤,但將女性誤認為男性的比例有19%、將深膚色女性誤認為男性的比例為31%。

不止是 Rekognition,現在的人臉識別產品幾乎都是這樣,易用卻也容易產生偏頗。麻省理工此前也對包括 IBM 和微軟在內的主要科技公司做過測試,結果表明,識別深膚色面部的錯誤率比識別淺膚色面部的錯誤率高十幾個百分點。

多項研究證明,人臉識別技術並不夠成熟。2019年12月,美國國家標準與技術研究所發現,經驗證據表明,目前大多數的人臉識別算法,在人口統計學的準確度上,存在誤差。

但在這次動亂之前,面對批評,這些公司並沒有做出什麼改變。甚至這一次,也只有 IBM 表示擔心技術上不成熟所導致的後果。亞馬遜和微軟,更偏向於通過國會監督,來解決問題,而沒有直接、正面地提及自身產品的缺陷。


“是時候討論人臉識別應用了”

為什麼人臉識別會加深種族矛盾?

《紐約時報》曾指出,部分原因在於,這些公司訓練識別模型的數據集中,絕大多數可能是男性和白人。

也有人解釋,因為做人臉識別開發的技術人員,集中在主要科技公司,而他們大部分是白人和男性。因此,在數據集的選擇和收集上,難免存在偏頗。

實際上,對於人臉識別,甚或是機器學習來說,參數、模型、算法已經不是最難攻克的方面了。AI 研發團隊最缺的往往是數據、標註。

機器學習就是讓計算機模擬人腦進行分辨和思考。就像我們從小學習認字,或是去認識一個人一樣,如果想要計算機識別出人臉、文字、物體等等,首先需要人類找出大量的案例數據去餵養,沒有數據,機器學習就無從談起。

另外還要給一些數據加上標註,告訴計算機我們需要的目標,然後在讓計算機自己去學習。有數據顯示,以物體檢測模型為例,開發者們花在數據標註上的時間,平均占項目周期的50%以上。

通常建立一個完善的數據集並不容易。不完善的數據集,又包裹着多種風險。

如在自動駕駛領域,數據採集非常不易。每個初創公司的任務清單里都包括一項“閉環”任務:路測、收集數據、路測、修改數據模型、再路測……而路測里程和數據也成為外界評價這些公司的重要指標。

最難的還是人臉識別。首先,數據的收集會受採集公司、主體價值觀、知識面的影響,使得數據集本身會存在或多或少的偏差。

其次,即便現在發達的社交網絡,為某些數據,如人臉信息、消費信息的採集提供了便捷的渠道,但這非常容易造成隱私傷害,引起大規模抗議。


上個月,美國公民自由聯盟 ACLU 起訴了 Clearview AI,這是一個比 Rekognition 使用更廣泛的面部識別系統。原因是 Clearview AI 未經人們統一,擅自從社交媒體抓取了十億張照片,訓練模型。

《紐約時報》曾評價面部識別技術,可能是世界上最分裂的技術:它可以識別罪犯和受害者,減少悲劇發生;但同時會加劇侵蝕隱私、加深種族歧視……

不過,我們似乎可以期待,當全世界都開始關注面部識別帶來的風險,巨壓之下,人臉識別或許還能做得更好。

就像 IBM Arvind Krishna 給國會的信中提到的一樣:是時候開始,就執法機構是否應該使用面部識別技術,以及如何使用面部識別技術,做全國性的對話了。

雖然 Arvind Krishna 此話針對的是美國執法機構,尤其是其暴力行為,但是隨着人臉識別技術在世界範圍內普及,和在公共系統中的應用,它將關係到我們每一個人,所以這場討論應該引起足夠的重視,而所有人都有發言權.