Com o boom da inteligência artificial generativa em andamento, as empresas de tecnologia estão em busca de dados de treinamento para melhorar seus modelos – e algumas estão pegando sem permissão.
Apple, Nvidia e Anthropic estão entre as empresas de tecnologia que se descobriu ter treinado modelos de IA com legendas de dezenas de milhares de vídeos do YouTube, apesar das regras da plataforma contra baixar e usar seu conteúdo sem permissão, de acordo com uma investigação da Proof News co-publicada com a Wired.
A investigação descobriu que as empresas estavam usando um conjunto de dados chamado Legendas do YouTube que incluía transcrições de 173.536 vídeos do YouTube de mais de 48.000 canais. Os vídeos no conjunto de dados vão desde canais educacionais como Khan Academy e MIT, até sites de notícias como The Wall Street Journal, até alguns dos principais criadores da plataforma como MrBeast e Marques Brownlee.
“Apple obteve dados para sua IA de várias empresas,” escreveu Brownlee em um post no X abordando a investigação. “Uma delas raspou toneladas de dados/transcrições de vídeos do YouTube, incluindo os meus.”
Brownlee acrescentou que enquanto “a Apple evita tecnicamente a ‘culpa’ aqui porque eles não são os que estão raspando,” “isso será um problema em evolução por muito tempo.”
A Proof News também criou uma ferramenta para criadores procurarem seu conteúdo no conjunto de dados, que incluía alguns vídeos do Quartz. O conjunto de dados Legendas do YouTube não inclui imagens de vídeos, mas inclui algumas legendas traduzidas em idiomas como alemão e árabe.
O conjunto de dados foi criado pela Eleuther AI, “um laboratório de pesquisa de IA sem fins lucrativos” que está focado em “promover normas de ciência aberta” e faz parte da compilação de material de outros lugares, incluindo o Parlamento Europeu e a Wikipedia em inglês, chamada de Pile, de acordo com a Proof News.
“O conjunto de dados Pile referido no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa,” disse um porta-voz da Salesforce, uma das empresas citadas na investigação por usar o conjunto de dados, em um comunicado compartilhado com o Quartz. “O conjunto de dados estava publicamente disponível e foi lançado sob uma licença permissiva.”
Nem a Apple, Nvidia, nem a Anthropic responderam imediatamente a um pedido de comentário.
Em abril, o executivo-chefe do YouTube, Neal Mohan, disse à Bloomberg que empresas que usam vídeos do YouTube, incluindo transcrições ou trechos de vídeos, para treinar modelos de IA, como o gerador de texto-para-vídeo do OpenAI, Sora, estariam em “clara violação” das políticas da plataforma. No entanto, o New York Times relatou dias depois que o OpenAI havia transcrito mais de um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4.