
【编者按】在人工智能浪潮席卷全球的当下,数据已成为新时代的"石油"。当科技巨头们争相挖掘这座金矿时,内容创作者与平台方的权益保卫战也悄然打响。近日,社交论坛Reddit与AI新锐Perplexity的对簿公堂,揭开了数据争夺战的冰山一角。这场诉讼不仅关乎两家企业的利益,更牵动着整个互联网生态的神经——当AI模型如饥似渴地吞噬着人类创造的内容,我们该如何平衡技术创新与知识产权保护?在开放互联网精神与商业利益之间,又该如何划定边界?这场交锋或将重塑人机共生的未来图景,让我们共同关注。
社交媒体巨头Reddit正式起诉人工智能公司Perplexity,指控其非法抓取用户帖子训练AI模型,这标志着内容所有者与AI行业之间最新爆发的数据权利冲突。
周三向纽约联邦法院提交的诉状同时指控三家协助Perplexity收集数据的实体:立陶宛数据抓取公司Oxylabs、"前俄罗斯僵尸网络"AWMProxy以及德州初创企业SerpApi。
Reddit指控这三家机构通过"伪装身份、隐藏定位、将网络爬虫伪装成普通用户"等手段提取其受版权保护的内容。
运营AI搜索引擎的Perplexity否认指控,反指Reddit进行"敲诈"并反对开放互联网。SerpApi则向CNBC表示"强烈反对"Reddit的主张,准备在法庭上捍卫权益。
本案是内容所有者起诉AI公司未经许可使用版权材料训练大语言模型的系列案件之一。Reddit始终身处维权前沿,今年六月还对AI初创企业Anthropic提起类似诉讼。CNBC暂未联系到Oxylabs与AWMProxy置评。
Reddit首席法务官本·李在声明中指出,AI公司正陷入"优质人类内容军备竞赛",这种压力催生了"工业级"数据洗钱"产业链"。
数据抓取者绕过技术保护窃取资料,转而将其出售给渴求训练材料的客户。Reddit因其承载着史上最庞大、最活跃的人类对话集合而成为首要目标。
拥有逾10万个兴趣社区"subreddit"的Reddit在诉状中表示,其用户帖子已成为Perplexity的AI生成答案最常引用的来源。
平台在发送停止侵权函后,对方"对Reddit的引用量反而激增四十倍"。
AI研究者曾指出,Reddit海量经过审核的对话能帮助AI聊天机器人生成更自然的回应。
在人工智能时代,Reddit着力开发其庞大数据池的价值,仅通过AI相关授权协议开放访问。该社交平台已与OpenAI和Alphabet旗下谷歌签署此类协议。
Perplexity在Reddit平台的回应中辩称,其未使用内容训练AI模型,仅对公开讨论进行摘要和引用,因此"不可能"签署授权协议。
声明强调:"一年前在依法获取数据后,Reddit仍坚持要求付费。我们从不向强权手段屈服",并指该诉讼是"Reddit与谷歌、OpenAI进行训练数据谈判时的武力展示"。
Perplexity补充道:"当公开数据成为上市公司商业模式的重要部分时,此类悲剧必将上演",指出数据授权已成为Reddit日益重要的收入来源。
Reddit首席运营官Jen Wong二月向业内媒体透露,与谷歌和OpenAI的AI授权协议已贡献平台近10%的收入。











