(來源:mit technology review)
幾周前,在參加全球數字權利會議「rightscon」期間,我親身感受到國際民間團體正在經歷的結構性震蕩。
rightscon 是由非營利組織 access now 發起的全球性的數字權利會議,旨在促進人權、隱私保護和自由表達,以及技術創新等核心議題,該會議每年在全球不同城市舉辦。
在今年的會議上,來自世界各地(包括美國)的民間社會組織,討論了如何應對全球數字權利工作最大資助方之一「美國政府」撤資後帶來的困境。
值得關注的是,當前美國政治生態正在發生範式轉變。正如此前在報道中所指出,特朗普政府對美國聯邦機構職能的大幅削弱令人震驚,並推動美國政治體制向一些政治學家口中的「競爭性威權主義」演進。
這種轉變不僅重塑了華盛頓的權力圖譜,也對硅谷科技巨頭的全球戰略產生深遠影響,波及大量美國科技公司的運營與政策。要知道,這些美國科技公司的用戶遍布全球,遠超美國本土市場。
rightscon 會上有不少與會者向我透露:他們已經察覺到這些科技公司在參與和支持用戶基礎較小的社區(尤其是非英語用戶群體)方面的意願和投資正在減少。
正因如此,不少政策制定者和商業領袖(特別是在歐洲)已經開始重新審視對美國科技的依賴,並思考是否能夠快速開發出更好、本土化的替代方案。在人工智能領域,這一趨勢尤為明顯。
就拿社交媒體來說,這種現象表現得最為突出。研究巴西國內科技政策的法學教授 yasmin curzi 告訴我:「自特朗普再次上任以來,我們已經無法再指望美國的社交媒體平台去做哪怕最基本的事情了。」
如今,社交媒體的內容審查已經大量採用自動化技術,並嘗試利用先進的人工智能模型來識別有問題的帖子。
然而,在印度、南非、巴西等地,這些系統根本識別不出那些暴力內容。顯然,人工智能在適應不同文化和語言環境等方面還有很長的路要走。
歐洲非營利法律中心專門研究人工智能治理的人權律師 marlena wisniak 指出,當前社交平台若過度依賴大語言模型進行內容審核,可能引發更嚴重的系統性風險,情況將變得更糟。
她向我透露:「大語言模型本身的審核就漏洞百出,而這些審核不佳的大語言模型又被用來審核其他內容,這簡直就是一個惡性循環,錯誤不斷重複、不斷放大。」
造成這種情況的部分原因在於主流人工智能系統的「語言偏食症」:它們主要是依靠英語國家的數據進行訓練的,而且大多還是美式英語,所以一旦碰上當地語言和語境,比如印度的方言俚語,就會顯得「水土不服」,表現欠佳。
哪怕是那些標榜能同時處理多種語言的多語言模型,在應對非西方語言時同樣也會力不從心。
例如,有人對 chatgpt 在醫療保健相關問題上的回復做了評估,發現由於中文和印地語在北美數據集中佔比不高,它在這兩種語言上的回復質量遠不如英語和西班牙語。
對於許多 rightscon 的與會者來說,這恰恰證明了他們一直呼籲的觀點:不管是在社交媒體領域,還是在更廣泛的其他領域,都需要更多以社區為導向的人工智能開發模式。
換句話說,想要打破這種技術霸權,必須推動人工智能研發模式的「本土化轉型」,其中可能包括小語言模型、聊天機械人,以及針對特定用途、特定語言和文化背景設計的數據集。
比如,能識別俚語和詆毀性詞彙,理解混合多種語言甚至字母書寫的詞句,還能辨別「重新賦予意義的詞彙」(也就是曾經的詆毀性詞彙,但如今被目標群體接納並賦予新意義)。
這些人工智能經過訓練後,可能會出現一些細分的創新形態,比如具備文化感知能力的人工智能助手,或是輕量化的區域語言模型。
畢竟,這些往往是科技巨頭所忽視的「語言邊緣地帶」:基於英語訓練的語言模型和自動化系統所忽略或誤分類的內容。
對此,初創公司 shhor ai 的創始人在 rightscon 會議上主持了一場小組討論,介紹了公司新推出的、專註於印度本土方言的內容審核應用程序編程接口(api)。
實際上,許多類似的解決方案已經發展了好多年,我們也曾報道過不少相關項目。比如,mozilla 曾發起一個志願者項目,專門收集非英語語言的訓練數據;還有一家名為 lelapa ai 的初創公司,專註於為非洲語言開發人工智能技術。
甚至今年早些時候,我們還把「小語言模型」列入 2025 年「十大突破性技術」榜單。
儘管如此,現在的情況和以往有些不同。特朗普政府對美國科技公司的政策和行為產生了不小的影響,這顯然是一個重要原因,但背後還有其他因素在起作用。
一方面,近期關於語言模型的研究和開發已經達到了一個臨界點,以往數據集的規模被認為是決定模型性能的關鍵,但現在這一點已經不再那麼重要了,這種變化意味着更多人有機會參與到語言模型的開發中來。
「毫不誇張地說,在一些資源較少的語言環境下,小語言模型完全有可能成為多語言模型的有力競爭者。」民主與技術中心訪問學者、專註於自動化內容審核的研究員 aliya bhatia 指出。
另一方面,全球局勢也在悄然發生變化。就在 rightscon 會議召開的前一周,巴黎剛剛舉辦了一場人工智能峰會,會上人工智能領域的國際競爭成為焦點議題。
從那以後,「主權人工智能」的概念開始受到廣泛關注,其核心是讓某個國家或組織能夠全面掌控人工智能開發的各個環節。
實際上,人工智能主權只是更廣泛「技術主權」的一部分,現如今,大家對「技術主權」的關注度越來越高,主要原因是人們對數據傳到美國後可能面臨的隱私和安全問題越來越擔憂。
去年 11 月,歐盟任命了首位負責技術主權、安全和民主事務的專員,並推進一項名為「歐洲堆棧(euro stack)」的計劃,簡單來說,這個計劃的目標是打造一套屬於歐洲自己的數字公共基礎設施。
雖然這個概念的定義還不太明確,但它可能涵蓋能源、水資源、雲服務、芯片、軟件、數據和人工智能等多個領域,這些技術和資源對於現代社會的發展以及未來的創新都至關重要,然而目前,它們大多由美國的科技公司掌控。
歐洲的這個計劃在一定程度上借鑒了印度的經驗,印度早在幾年前就推出了「印度堆棧(india stack)」計劃,建立了一套頗為完善的數字公共基礎設施,其中還包括一個名為「aadhaar」的生物識別信息管理系統。
除此之外,就在不久前,荷蘭的議員們通過了幾項新議案,旨在降低該國對美國科技公司的依賴。
這讓我想起了在 rightscon 會議上與瑞士數字隱私公司 proton 首席執行官 andy yen 的對話。他提到,特朗普上任後的一系列舉動實際上「推動了歐洲採取行動,並讓歐洲意識到必須重新掌握技術自主權」。
「一方面,這是因為總統能夠影響科技公司的高層;另一方面,科技是關乎任何一個國家未來經濟增長的關鍵因素。」他解釋說。
不過,僅靠政府的介入並不意味着語言模型中的包容性問題就能迎刃而解。
「我認為需要明確政府在這個過程中的角色和界限。如果政府開始指定哪些語言應該得到優先發展,或者試圖控制數據集中呈現的觀點,那可能會引發一系列問題。畢竟,用於訓練模型的數據,在很大程度上塑造了模型的認知和理解方式,並決定它的『世界觀』。」aliya bhatia 指出。
目前,誰也說不準這一系列變化最終會走向何方,又有多少只是一時的炒作。但無論如何,這都是我們將持續關注的領域。
原文鏈接:
https://www.technologyreview.com/2025/03/25/1113696/why-the-world-is-looking-to-ditch-us-ai-models/