「黑匣子」算法為什麼更容易製造偏見?

2024年04月22日22:12:07 科技 6364

下文經出版社授權,摘編自《失控與自控》。社會心理學家、德國馬普所人類發展研究中心主任格爾德·吉仁澤在文中分析了不透明的算法為什麼更容易固化歧視和助長偏見。

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

《失控與自控》,格爾德·吉仁澤著,何文忠 等譯,中信出版社 2024年1月。

作者|格爾德·吉仁澤

透明的正義

黑匣子算法引發了一場激烈辯論,焦點在於黑匣子算法是否對某些群體不公平,如有色人種和窮人。然而,還有一個更根本的問題:黑匣子算法缺乏透明度。沒有透明度,就很難確定其是否公平。例如,公共利益新聞調查中心(propublica)曾嘗試分析compas算法,並得出該算法確實存在種族偏見的結論,但其他研究人員得出了相反的結論。缺乏透明度也違背了大家對正義和尊嚴的理解。而大多數問題可以通過使用透明算法來避免。

「決策列表」就是現有的透明風險評估工具之一。corels算法是一種機器學習工具,可以從以前案例的數據中以清晰的邏輯生成此類列表。以預測被告是否會在兩年內被捕為例。「決策列表」是這樣的邏輯:如果被告的年齡是18~20歲,且是男性,則預測其會被捕。如果被告的年齡是21~23歲,且之前有2~3次犯罪(無論性別),則預測其會被捕。如果年齡不在上述範圍,則檢查被告是否有超過3次前科。如果是,則預測會被捕。而在其他情況下,則預測不會被捕(圖7.1)。

請注意,只有年齡、性別和以前的罪行進入「決策列表」,沒有什麼神秘之處,黑匣子里沒有藏着水晶球。機器學習工具所做的是提取最重要的特徵並建立確切的規則。儘管原理很簡單,但依據三個特徵的決策列表預測被捕的準確度與考慮多達137個特徵的compas算法一樣。預測被告未來是否會被逮捕的黑匣子算法並不比透明簡單的算法更準確,這一發現不是例外,而是規律。

「決策列表」體現了我心目中「透明度」的含義。這個算法已被公開,而且是可以理解的:

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

通過查看「決策列表」,人們可以確切知道預測是如何做出的。決策列表提高了透明度,讓人們更容易檢測出潛在的歧視,節省了購買秘密算法的成本,揭開了程序的神秘面紗。當前,簡單的決策列表與複雜的秘密算法準確度差不多,但喜歡使用算法作為決策輔助的法官至少可以輕鬆使用和理解這些列表。

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

英國紀錄片《地平線系列:大數據時代》(horizon:the age of big data,2013)劇照。

另一個知名度更高的透明工具是「公共安全評估」(psa),其目的是幫助法官決定是否應在審判前釋放被告。例如,在預測被告不出庭的可能風險值時,它只使用了四個特徵(圖7.2)。對於前三個特點,「是」分別對應1分的風險值;最後一個特徵,「過去兩年內有過一次不出庭的情況」,對應2分的風險值;過去兩年內有兩次甚至更多次不出庭情況,則對應4分的風險值。被告和法官可以很容易看到有哪些特徵以及加權規則,並在互聯網上查找最終風險評分是如何計算的。psa還使用不同的特徵組合來預測新的犯罪活動,例如被告案件審判前所犯的罪。與決策列表一樣(但與compas不同),psa不是商業算法。

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

psa的邏輯類似於按量收費算法(圖4.6):一個以少量特徵為參考,並用簡單數字進行積分的系統。就像遠程信息處理汽車保險一樣,透明的風險評估允許被告調整他們的行為,例如避免錯過法庭聽證會。如果算法不公開,被告就不知道該如何改善自己的行為。商業機密是客戶理解算法的阻礙之一,但並不是唯一的阻礙。另一重阻礙在於其複雜性。即使公開算法,也可能因為過於複雜,外行和專業人士無法弄清楚決定是如何做出的或分數是如何計算的。透明算法不僅限於決策列表或計值系統,本書也會呈現其他算法。

透明算法有很多優點。在緊急情況下,專業人員必須掌握易於記憶的分類規則,以便快速有效地執行這些規則。算法透明還有助於確定算法是否包含偏見,例如種族主義。可見上文提到的psa和決策列表都沒有納入種族的特徵。儘管如此,也不能排除它們關注其他類似種族特徵的可能。但同樣,算法透明讓人們更易於檢查情況是否確實如此。例如,四個問題中可能有一個是:你是否住在曼哈頓125街?當有超過100個特徵時,種族可以與其中許多特徵相關聯,使識別隱藏的偏見成為一項艱巨任務。

然而,僅靠透明度並不能保證得到的數值比黑匣子算法的數值更準確,在上述兩種算法中,從根本上講,實際結果是不確定的。就psa而言,大多數研究顯示其預測能力為中等或良好。一個更重要的問題是,風險評估工具是否真的可以改善法官在沒有任何算法輔助的情況下自行做出的決定?它與其他工具相比如何?在找尋答案時,我發現目前很少有研究提出上述問題,這令我感到震驚。

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

《她》劇照。

為什麼算法會固化歧視

即使是最狂熱的粉絲基本上也承認人工智能有偏見問題。據報道,警察、法院、僱主、信用評分機構等使用的人工智能系統都存在性別或種族歧視。個性化算法為白人男性提供了薪酬更高的工作,還有前文提到的谷歌的圖像分類系統將一對深色皮膚的夫婦識別為「大猩猩」的醜聞。人工智能應該是中立、客觀和數據驅動的,怎麼會對女性、有色人種或其他邊緣化群體不公平呢?

重要的是了解什麼是歧視,什麼不是。維也納愛樂樂團是世界上最好的樂團之一。從第一個和弦開始,樂迷就可以通過美妙的聲音,聽出這是維也納愛樂樂團在演奏。樂盲也可以通過認出其中為數不多的女性音樂家做到這一點,不過他們靠的是眼睛而不是耳朵。直到1997年,在巨大的公眾壓力下,該樂團才正式聘用了第一名女性成員,她是一位豎琴家(她在樂團中拿着低薪演奏了數十年,之後很快便退休了)。全世界管弦樂隊聘用的男性多於女性,但這一事實本身並不能證明存在歧視,可能在頂尖的音樂家中就是男性居多。但是,如果發現男性和女性演奏得一樣好,但男性卻更受青睞,這便表明存在歧視。只有採用幕後盲選,評委會無從知曉候選人的性別時,大家才明白樂團確實歧視女性。到2020年,世界級交響樂團中的女性比例已從20世紀70年代的5%~10%上升至40%~45%。

與人類評委會一樣,算法也可能會歧視女性、有色人種或其他邊緣化群體。如果算法透明,相對來說就更容易發現歧視。比如按量收費算法(圖4.6)。性別和種族都不在它考慮的範圍內,因此沒有證據表明其存在歧視。不考慮性別或種族信息的算法就相當於隱藏了這類信息的盲試。但是,如果存在與性別或種族相關的其他特徵,例如收入或社區,歧視也可能隱蔽地出現——雖然只要算法是透明的,也可以輕鬆查出。相比之下,如果算法是秘密的並且像compas算法那樣運用了許多特徵,則可能很難檢測到。可能存在歧視是所有敏感算法都應透明的重要原因之一。

故意設計為不透明的算法,例如深度人工神經網絡,會帶來更大的問題。這裡出現的歧視並不是因為性別或種族被用作特徵,因為程序員甚至不用確定選用哪些判斷特徵,神經網絡會自己確定,相反,數據可能就是歧視的來源。我們再以維也納愛樂樂團為例。假設一家科技公司需要訓練一種深度神經網絡來尋找最好的樂手,該神經網絡需要接收過去50年來全球頂級管弦樂隊的100000名申請者的個人資料,包括他們是否已被錄用的信息,結果神經網絡很快就會發現並確立男性是一個突出的預測指標,從而固化過去的偏見。

這種現象已經發生在女性為少數的其他領域。例如,亞馬遜的機器學習專家構建了一種算法。根據個人資料,對軟件開發職位和其他技術工作的申請人進行評分。給機器提供100份資料,它會從中選出前五名候選人。出乎意料的是,這台機器並不「喜歡」女性。偏見又一次隱藏在數據中,數據中包含過去10年的求職者的資料,絕大多數被聘用者是男性。即使只保留申請人的姓氏也沒有多大改變。人工智能總能找到應對策略,例如藉助女子學院的校名推斷性別。

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

《黑鏡》(black mirror,2023)第六季劇照。

人臉識別系統在經過訓練後可以判斷一張臉是男性還是女性,這其中也存在偏見。這些系統被用於從安保視頻片段中識別肇事者,系統錯誤可能會導致錯誤的指控。在一項研究中,男性和女性的照片被展示給微軟、ibm和face++的三個商業性別分類系統,有些人膚色較深,有些人較淺。每當系統將一張臉歸類為「男性」時,如果其膚色較淺,則系統的錯誤率只有0~1%;但如果其膚色較深,則系統的錯誤率會增加到1%~12%,具體錯誤率依系統不同而有所差別。當這類系統將一張臉歸類為「女性」時,如果其膚色較淺,則錯誤率在2%~7%;但如果其膚色較深,則在21%~35%的情況下出現歸類錯誤。每個系統在識別女性面孔時出現的錯誤都比在識別男性面孔時多,在識別深色皮膚時比識別淺色皮膚時錯誤多。

那麼偏見從何而來?問題出在用於訓練系統的圖片上。大約一半的照片是白人男性,其餘大部分是白人女性。膚色較深的人,尤其是女性,則很少。

該研究發表後,負責測試商業系統的三家公司迅速更新了它們的系統並減少了偏差。然而更新之後,ibm系統在識別膚色較深的女性時仍存在17%的錯誤率。ibm系統解決偏差問題的方法十分討巧,系統並沒有算上所有的錯誤,只計算了系統有超過99%的信心認為其結果是正確時出現的錯誤,這使得公司報告的錯誤率只有3.5%。最有趣的是,這項研究似乎並未影響到研究中未提及的公司,例如亞馬遜和凱洛斯。在識別深色皮膚女性時,這些公司的錯誤率也很高,會將她們跟男性混淆。被此項研究提名可能是件羞恥的事,但也只是那些被提名的公司會有如此感覺罷了。

「黑匣子」算法為什麼更容易製造偏見? - 天天要聞

英國紀錄片《地平線系列:大數據時代》(horizon:the age of big data,2013)劇照。

神經網絡會產生更多偏見

偏見的核心在於數據本身存在偏見,但深度神經網絡可能會加劇這個問題。想像一下我們在一個神經網絡中輸入了數以萬計的人類活動圖片,以此教會它識別人類活動和性別。這些照片具有典型的性別偏見,其中男性大多數在參與戶外活動,如開車和射擊,女性則更多是在烹飪和購物。當該網絡需要在大量新圖片中識別性別和活動時,就會產生很多偏見。例如,當圖片中的活動是烹飪時,67%的照片是女性。然而,該網絡得出的結論是,84%是女性,誤認了大約一半的男性廚師。

深度神經網絡為什麼會加深偏見呢?原因之一是研究人員通過正確答案的數量來評估網絡的性能,而不是根據偏見的程度。神經網絡確實可以通過加深偏見度來提高性能。假設一個網絡只知道2/3的廚師是女性。為了達到最好的結果,它會猜測每位廚師都是女性,這意味着2/3的答案是正確的。這當然會最大限度地放大偏差。但如果為了加深偏見,網絡可以隨機猜測2/3照片中的廚師是女性,而1/3照片中的廚師是男性。在這種情況下,它只會得到大約56%的正確答案。一般來說,如果數據存在偏見,與嘗試追求「公平」相比,放大偏見往往會讓系統表現出更好的性能。

偏見不僅存在於人工智能中。在科技公司里,也主要是男性想要改變我們生活的方方面面。根據《連線》雜誌的報道,在前沿的機器學習會議上,只有12%的發言人是女性,谷歌機器學習的研究員中,只有10%是女性,這是一種倒退。遙想20世紀80年代初,計算機科學系的畢業生中有40%是女性。蒂姆尼特·格布魯博士是谷歌的科研人員,也是性別分類研究項目的發起者之一,谷歌有色人種女性員工只佔總人數的1.6%,她是其中一員。她與人合作的一項新研究發現,谷歌的大型語言模型,看似可以生成有意義的文本和對話,但該模型在進行機器學習時,需要接收大量互聯網上的文本,其中含有種族主義和性別歧視的話語,因此該模型有複製這些言語的風險。此外,培訓消耗了大量的計算能量,從而消耗了大量電力,導致二氧化碳排放量大幅增加。所有這一切往往會讓富有的組織從中受益。然而,隨之而來的氣候變化,首先受到影響的卻是貧困社區。谷歌的領導層看到此項研究的論文後,決定對其進行審查,隨後解僱了格布魯博士。數千名谷歌員工以及來自學術界和民間組織的支持者聯名寫了一封抗議信,在信中他們直言:「格布魯博士是為數不多的反對強大和有偏見的技術以不道德和不民主的方式侵入我們日常生活的科技公司內部成員。」

作者/格爾德·吉仁澤

摘編/李永博

導語校對/賈寧

科技分類資訊推薦

中山醫院青年人才科技創新發展學院揭牌 - 天天要聞

中山醫院青年人才科技創新發展學院揭牌

圖源/採訪對象提供5月13日,復旦大學附屬中山醫院青年人才科技創新發展學院(團校)揭牌。  青年人才科技創新發展學院(團校)作為中山醫院推進國家醫學中心建設項目「人才培養中心」的一項實質性舉措,緊緊圍繞基礎醫學、智慧醫療、生物醫藥、醫工交叉、科技創新等熱點前沿領域,統籌院內外優質資源,建成中山的「高品...
引領正能量與大流量雙向奔赴,浦東積極推動共建共治共享清朗網絡空間 - 天天要聞

引領正能量與大流量雙向奔赴,浦東積極推動共建共治共享清朗網絡空間

為進一步壓實網站平台和自媒體信息內容治理主體責任,浦東新區今天舉行「清朗浦江•2024」網絡生態治理旬行動主題日活動暨上網聯自媒體專委會浦東新區分會成立儀式,發佈《構建清朗網絡生態自律公約》,開展打擊網絡謠言、維護意識形態安全、保護知識產權等網絡生態治理主題培訓,邀請各方共建共治共享晴朗網絡空間。浦東新...
微信、QQ新功能上線!已覆蓋四川全省 - 天天要聞

微信、QQ新功能上線!已覆蓋四川全省

近日四川省地震預警平台微信小程序有了升級優化版支持設置多個關注地新增地震速報提醒新增多地報警信息聚合頁面同時QQ平台也正式上線地震預警功能這也意味着騰訊雙平台地震預警覆蓋四川全省如何開啟這一功能?操作步驟如下微信平台微信搜一搜搜索「四川地震台」公眾號,關注公眾號開啟地震預警,打開小程序設置預警...
多強聯合!配滑移曲面屏,或搭華為智駕,家庭用戶新選擇 - 天天要聞

多強聯合!配滑移曲面屏,或搭華為智駕,家庭用戶新選擇

磚叔提示:本文閱讀時間約3分鐘寫稿不易,歡迎點贊轉發!在最新一期的工信部申報圖中,我們發現了嵐圖全新SUV的身影,該車此前內部代號為H37,定位略低於嵐圖Free,且從目前的公布的信息看,車輛或僅有純電版本車型可選。值得一提的是,從車輛尾部申報圖可以看到,這台新車有可能命名為「知音」。尺寸方面,這台新車長寬高...
外媒:蘋果首款可摺疊手機或搭載三星顯示屏 - 天天要聞

外媒:蘋果首款可摺疊手機或搭載三星顯示屏

來源:環球網 【環球網科技綜合報道】5月13日消息,據外媒報道,蘋果已與三星簽署了一份採購協議,後者將為首款可摺疊iPhone提供顯示屏。圖片來源:IC photo據悉,作為蘋果重要的顯示屏供應商,三星多年來與蘋果保持緊密合作。目前,雙方協議中的屏幕類型和尺寸尚未可知。
三星、SK海力士將止供應,DDR3價格大漲20% - 天天要聞

三星、SK海力士將止供應,DDR3價格大漲20%

5月13日消息,據《經濟日報》報道,全球前兩大DRAM供應商韓國三星電子和SK海力士正全力發展高帶寬內存(HBM)與主流DDR5規格內存,今年下半年起將停止供應DDR3 DRAM,引發市場搶貨潮,導致近期DDR3價格大漲,最高漲幅達20%,且下半年報價可能還會繼續上漲。業界傳聞稱,為發展HBM與DDR5的策略,三星已經通知客戶將在第2季底...
四川實現微信、QQ雙平台地震預警服務 - 天天要聞

四川實現微信、QQ雙平台地震預警服務

新華社客戶端成都5月13日電(記者張海磊)5月12日,四川省地震局攜手騰訊,在QQ正式上線全省官方地震預警功能;同時,四川省地震預警平台「四川地震台」微信小程序在上線一周年之際完成功能優化升級,支持用戶設置多個關注地、新增多報聚合、新增地震速報提醒。QQ地震預警設置。
和小米SU7同價 疑智己L6售價曝光:21.59萬起 - 天天要聞

和小米SU7同價 疑智己L6售價曝光:21.59萬起

快科技5月13日消息,智己旗下全新純電動轎車L6將於今晚上市,價格無疑是最大的懸念,日前該車已開啟預售,價格為23-33萬元,而就在今日,疑似智己App出現bug提前將該車價格泄漏,為21.59萬起,和小米SU7同價。智己L6延續了家族化的設計語言,前臉為封閉樣式,並未使用當前流行的貫穿式LED日行燈,大燈組採用了非常犀利獨特...
400電話對企業推廣有哪些影響? - 天天要聞

400電話對企業推廣有哪些影響?

400電話是企業的專屬客服電話,它的功能很多,對企業各個方面都有一定的影響,我們來分析一下400電話是如何影響企業營銷宣傳的。
騰訊音樂Q1超預期:總收入67.7億元 在線音樂付費用戶凈增創新高 - 天天要聞

騰訊音樂Q1超預期:總收入67.7億元 在線音樂付費用戶凈增創新高

騰訊科技訊 5月13日消息,中國領先的在線音樂與音頻娛樂平台騰訊音樂娛樂集團(以下簡稱「TME」或「公司」)(紐交所股票代碼:TME及港交所股票代碼:1698)今日宣布其截至2024年3月31日止第一季度的未經審計財務業績及截至2023年12月31日止的年度現金股息。2024年第一季度,騰訊音樂娛樂集團整體業績表現穩中有進,並超出...