A empresa mãe da WordPress e do Tumblr, a Automattic, está em negociações para vender conteúdo de suas plataformas para empresas de inteligência artificial como o MidJourney e o OpenAI para fins de treinamento, segundo um novo relatório da 404 Media. E embora os detalhes do acordo ainda sejam desconhecidos, a Automattic está tentando tranquilizar os usuários de que eles podem optar por sair a qualquer momento.
Segundo relatos da 404, há um conflito interno na Automattic, pois parte do conteúdo que estava sendo coletado para as empresas de IA incluía conteúdo privado não destinado a ser salvo pela empresa. Para complicar ainda mais as coisas, conteúdos publicitários que nem sequer são de propriedade da Automattic, incluindo anúncios de uma antiga campanha da Apple Music, também teriam feito parte do conjunto de dados de treinamento.
Os planos na Automattic têm gerado tanta controvérsia internamente que um gerente de produto chegou até mesmo a retirar suas próprias fotos do Tumblr para garantir que elas não sejam usadas para treinar IA, de acordo com a 404.
A IA generativa se tornou um grande negócio desde que a OpenAI lançou o ChatGPT no final de 2022 e criadores de imagens com texto logo vieram de várias empresas. A tecnologia funciona sendo “treinada” com enormes quantidades de dados, o que permite gerar vídeos, imagens ou textos que parecem originais. No entanto, importantes editoras têm reclamado, com algumas até entrando com processos judiciais, alegando que grande parte dos dados usados para treinar esses sistemas foi pirateada ou não constitui “uso justo” sob os regimes de direitos autorais existentes.
A Automattic planeja introduzir uma nova configuração já na quarta-feira que permitirá aos usuários optar por não permitir que seus dados sejam usados para treinar sistemas de IA, de acordo com a 404 Media, mas não está claro se a configuração será ativada ou desativada por padrão para a maioria dos usuários. A concorrente do WordPress, Squarespace, introduziu uma configuração semelhante para optar por não permitir que seus dados sejam usados para treinar IA no ano passado.
Em resposta a perguntas por email na terça-feira, a Automattic direcionou o Gizmodo para um novo post que mais ou menos confirmava as informações da 404 Media, enquanto tentava vender a mudança aos consumidores como uma oportunidade de “dar a você mais controle sobre o conteúdo que você criou”.
Entretanto, a extensa declaração soa extremamente defensiva, observando que “não existe lei que exija que os web crawlers sigam essas preferências” e sugerindo que a empresa está apenas seguindo as melhores práticas do setor para dar aos usuários a opção de decidir se desejam que seu conteúdo seja usado para treinar IA.
“Nossas parcerias irão respeitar todas as configurações de exclusão. Também planejamos ir além e atualizar regularmente todos os parceiros sobre as pessoas que optam por sair recentemente e solicitar que seu conteúdo seja removido de fontes anteriores e futuros treinamentos.”