在人工智慧公司如何訓練其模型的鬥爭中開闢一條新戰線,已經成為必須面對的問題。Reddit是使用最廣泛的社交新聞和論壇平台之一,它起訴了人工智慧初創公司Anthropic,指控其未經許可使用其內容來訓練其Claude模型。
從表面上看,這是一場關於數據的爭論,但其影響要深遠得多。隨著越來越多的平台反擊,人工智慧行業面臨著一個緊迫的問題:它能否繼續建立在不是自己擁有的數據之上?這也引發了人們對人工智慧如何獲得許可和商業化的擔憂。
Reddit聲稱,自2024年7月以來,Anthropic訪問其平台超過10萬次,以抓取用戶生成的內容進行人工智慧培訓,違反了Reddit的服務條款。該平台還聲稱,據報道,Anthropic保證已阻止其機器人訪問Reddit,但仍繼續抓取。
Anthropic在一份聲明中表示,它不同意Reddit的說法,並打算「大力為自己辯護」。這並不奇怪。鑒於對人工智慧訓練實踐的審查,公司不太可能承認任何失誤,至少不會公開承認。
該訴訟在兩家公司總部所在地舊金山的加州高等法院提起。這是針對人工智慧公司如何收集和使用數據的日益增長的法律訴訟浪潮中的最新一輪。在過去的幾年裡,《紐約時報》起訴OpenAI和微軟涉嫌未經授權複製其文章,而蓋蒂圖片社則將Stability AI告上法庭,指控其未經許可使用數百萬張圖片。
Reddit是一個豐富的訓練數據來源,但它也很脆弱。它的內容包括數百萬個真實和無腳本的對話,提供了大型語言模型(LLM)所模仿的那種人類語言。這使得它對人工智慧開發人員來說非常有用,但也使其成為關於誰真正擁有互聯網對話的日益激烈的爭論中心。
然而,Reddit並沒有將其數據視為公共資源。事實上,去年它與谷歌簽署了一項6000萬美元的許可協議,隨後又與OpenAI簽署了另一項協議,允許這些公司付費訪問其數據以訓練人工智慧模型。這些交易不僅是為了創造收入,也是Reddit將其內容定位為優質資產的更廣泛戰略的一部分。
通過訴訟,Reddit正在為其所稱的未經授權使用其數據的行為尋求金錢賠償。Reddit聲稱,Anthropic對其內容的「商業利用」可能價值數十億美元。
Reddit也在尋求禁令救濟,要求法院阻止Anthropic繼續使用Reddit數據。這對Anthropic來說可能是一個嚴重的問題。如果法院批准這一請求,Anthropic可能不得不從其訓練集中剝離Reddit數據,刪除部分模型權重,並可能從頭開始重新訓練模型。
這不是Anthropic第一次因如何使用數據而成為法律鬥爭的中心。2024年8月,一群作者在加利福尼亞州提起集體訴訟,指控該公司通過複製數十萬本受版權保護的書籍建立了數十億美元的業務。僅僅兩個月後,環球音樂集團在田納西州起訴了Anthropic,聲稱其模型正在「系統和廣泛」地採用受版權保護的歌詞。
對於人工智慧開發人員來說,對數據的訪問是成敗攸關的。任何限制這種准入的法律先例都可能對進展造成重大障礙。如果這起訴訟對Reddit產生積極的結果,它可能會對人工智慧模型的未來產生巨大的影響。人工智慧開發人員不僅需要明確的許可或授權才能對用戶生成的內容進行訓練,而且模型管道的開發也將變得更加昂貴和緩慢。這也可能意味著人工智慧模型的範圍可能會更窄。
如果結果有利於Anthropic,人工智慧開發人員會鬆一口氣。這將允許他們在更廣泛的合理使用定義下繼續抓取公開可用的數據。如果是這樣的話,那麼閘門可能會一直打開。然而,這可能只是暫時的。美國和歐盟都面臨著監管訓練數據使用的立法壓力。
Reddit訴Anthropic的訴訟可能有助於確定未來幾年人工智慧訓練的法律界限。隨著圍繞數據所有權、同意和平台控制的問題變得越來越緊迫,這起訴訟凸顯了適用於快速發展的人工智慧生態系統的更明確規則的必要性。
現在開啟你的人工智慧探奇之旅:
NVIDIA DLI 與Ai時代前沿合作,將大門向更多普通用戶敞開!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這裡都有適合你的課程和資源。多門初級課程限時免費!