在人工智能公司如何训练其模型的斗争中开辟一条新战线,已经成为必须面对的问题。Reddit是使用最广泛的社交新闻和论坛平台之一,它起诉了人工智能初创公司Anthropic,指控其未经许可使用其内容来训练其Claude模型。
从表面上看,这是一场关于数据的争论,但其影响要深远得多。随着越来越多的平台反击,人工智能行业面临着一个紧迫的问题:它能否继续建立在不是自己拥有的数据之上?这也引发了人们对人工智能如何获得许可和商业化的担忧。
Reddit声称,自2024年7月以来,Anthropic访问其平台超过10万次,以抓取用户生成的内容进行人工智能培训,违反了Reddit的服务条款。该平台还声称,据报道,Anthropic保证已阻止其机器人访问Reddit,但仍继续抓取。
Anthropic在一份声明中表示,它不同意Reddit的说法,并打算“大力为自己辩护”。这并不奇怪。鉴于对人工智能训练实践的审查,公司不太可能承认任何失误,至少不会公开承认。
该诉讼在两家公司总部所在地旧金山的加州高等法院提起。这是针对人工智能公司如何收集和使用数据的日益增长的法律诉讼浪潮中的最新一轮。在过去的几年里,《纽约时报》起诉OpenAI和微软涉嫌未经授权复制其文章,而盖蒂图片社则将Stability AI告上法庭,指控其未经许可使用数百万张图片。
Reddit是一个丰富的训练数据来源,但它也很脆弱。它的内容包括数百万个真实和无脚本的对话,提供了大型语言模型(LLM)所模仿的那种人类语言。这使得它对人工智能开发人员来说非常有用,但也使其成为关于谁真正拥有互联网对话的日益激烈的争论中心。
然而,Reddit并没有将其数据视为公共资源。事实上,去年它与谷歌签署了一项6000万美元的许可协议,随后又与OpenAI签署了另一项协议,允许这些公司付费访问其数据以训练人工智能模型。这些交易不仅是为了创造收入,也是Reddit将其内容定位为优质资产的更广泛战略的一部分。
通过诉讼,Reddit正在为其所称的未经授权使用其数据的行为寻求金钱赔偿。Reddit声称,Anthropic对其内容的“商业利用”可能价值数十亿美元。
Reddit也在寻求禁令救济,要求法院阻止Anthropic继续使用Reddit数据。这对Anthropic来说可能是一个严重的问题。如果法院批准这一请求,Anthropic可能不得不从其训练集中剥离Reddit数据,删除部分模型权重,并可能从头开始重新训练模型。
这不是Anthropic第一次因如何使用数据而成为法律斗争的中心。2024年8月,一群作者在加利福尼亚州提起集体诉讼,指控该公司通过复制数十万本受版权保护的书籍建立了数十亿美元的业务。仅仅两个月后,环球音乐集团在田纳西州起诉了Anthropic,声称其模型正在“系统和广泛”地采用受版权保护的歌词。
对于人工智能开发人员来说,对数据的访问是成败攸关的。任何限制这种准入的法律先例都可能对进展造成重大障碍。如果这起诉讼对Reddit产生积极的结果,它可能会对人工智能模型的未来产生巨大的影响。人工智能开发人员不仅需要明确的许可或授权才能对用户生成的内容进行训练,而且模型管道的开发也将变得更加昂贵和缓慢。这也可能意味着人工智能模型的范围可能会更窄。
如果结果有利于Anthropic,人工智能开发人员会松一口气。这将允许他们在更广泛的合理使用定义下继续抓取公开可用的数据。如果是这样的话,那么闸门可能会一直打开。然而,这可能只是暂时的。美国和欧盟都面临着监管训练数据使用的立法压力。
Reddit诉Anthropic的诉讼可能有助于确定未来几年人工智能训练的法律界限。随着围绕数据所有权、同意和平台控制的问题变得越来越紧迫,这起诉讼凸显了适用于快速发展的人工智能生态系统的更明确规则的必要性。
现在开启你的人工智能探奇之旅:
NVIDIA DLI 与Ai时代前沿合作,将大门向更多普通用户敞开!无论你是对新技术充满好奇心的爱好者,还是希望提升自己技能的职场人士,这里都有适合你的课程和资源。多门初级课程限时免费!