Reddit Está Processando Anthropic Por Supostamente Roubar Dados Para Treinar Seu IA

Nesta história: Reddit está levando Anthropic aos tribunais, alegando que a startup de IA ajudou a si mesma à vasta biblioteca de conteúdo gerado pelo usuário da plataforma – depois de dizer que não o faria.

Em uma ação judicial protocolada na quarta-feira em um tribunal estadual da Califórnia do Norte, o Reddit acusou a Anthropic de raspar ilegalmente o site mais de 100.000 vezes desde julho de 2024, apesar de ter dito anteriormente ao Reddit que tinha bloqueado seus robôs de fazê-lo.

“Este caso diz respeito às duas faces da Anthropic”, escreveu a equipe jurídica do Reddit no processo. “A face pública que tenta se aproximar com reivindicações de retidão e respeito por limites e leis e a face privada que ignora quaisquer regras que interfiram em suas tentativas de encher os bolsos.”

“O Reddit move esta ação para impedir que a Anthropic – que diz ao mundo que não pretende treinar seus modelos com dados roubados – faça exatamente isso.”

A porta-voz da Anthropic, Danielle Ghighlieri, disse em um comunicado ao The Verge que a empresa contesta as alegações do Reddit “e vai nos defender vigorosamente.”

A ação sinaliza uma batalha mais ampla sobre o material que sustenta a IA. O Reddit – que assinou acordos de licenciamento de dados multimilionários com o Google (GOOGL) e OpenAI – argumentou que sua plataforma não é apenas outro site público, mas um valioso arquivo de conversas humanas que não deve ser usado sem permissão ou pagamento.

“A humanidade do Reddit é singularmente valiosa em um mundo nivelado pela IA”, disse o diretor jurídico chefe do Reddit, Ben Lee, em um comunicado. Ele disse ao TechCrunch: “Não toleraremos entidades ávidas por lucro como a Anthropic comercializando o conteúdo do Reddit por bilhões de dólares sem nenhum retorno para os redditors ou respeito à sua privacidade.”

O Reddit afirmou que tentou negociar uma licença com a Anthropic e deixou claro que a empresa não tinha permissão para raspar dados – apenas para descobrir que a Anthropic supostamente continuava a drenar dados de qualquer maneira. O Reddit está pedindo por danos, restituição e uma ordem judicial para impedir o uso contínuo de seus dados.

No processo, o Reddit chama a Anthropic de uma empresa de IA “tardia” que “se afirma como o cavaleiro branco da indústria de IA” – que “está longe de ser”.

A ação também observa que a Anthropic citou o Reddit como uma fonte de treinamento chave em um artigo de pesquisa de 2021 – sublinhando que os dados da plataforma (consultas e postagens por pessoas reais do dia a dia) foram essenciais no treinamento de sistemas de IA como o Claude da Anthropic.

A ação torna o Reddit a primeira grande empresa de tecnologia – não apenas um editor ou detentor de direitos – a desafiar um desenvolvedor de IA no tribunal por dados de treinamento. Mas o Reddit está longe de estar sozinho. A Anthropic já enfrenta ações judiciais de editoras de música e autores que afirmam que suas obras protegidas por direitos autorais foram usadas sem autorização. OpenAI, Meta, e outros estão envolvidos em casos semelhantes, incluindo uma ação de destaque do The New York Times.

Para o Reddit, o caso vai além de limites legais – trata-se de limites econômicos. A empresa recentemente abriu capital e busca monetizar o valor de quase duas décadas de discussões arquivadas. Seu acordo relatado de US$ 60 milhões por ano com o Google, firmado no início deste ano, ajudou a estabelecer uma base para quanto as empresas de IA podem pagar pelo acesso a conteúdo de treinamento de alta qualidade.

E embora o Reddit tenha fechado acordos com empresas como OpenAI – cujo CEO Sam Altman é o terceiro maior acionista do Reddit – alega que esses acordos incluem proteções ao usuário e compensação adequada.