OpenAI Teria Transcrito 1 Milhão de Horas de Vídeos do YouTube para Treinar o GPT-4

A OpenAI, supostamente, transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4, de acordo com o The New York Times no sábado. O relatório vem apenas alguns dias depois que o CEO do YouTube, Neal Mohan, afirmou que transcrever vídeos do YouTube para treinamento de IA seria uma “violação clara” de suas políticas em uma entrevista à Bloomberg.

“Quando um criador faz upload de seu trabalho árduo em nossa plataforma, ele tem certas expectativas. Uma dessas expectativas é que os termos de serviços serão cumpridos”, disse Mohan em uma entrevista à Bloomberg na semana passada. “Mas não permite que coisas como transcrições ou trechos de vídeo sejam baixados.”

O relatório do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube, de acordo com fontes. O artigo detalha como a OpenAI, e muitas empresas de tecnologia, estão enfrentando dificuldades para coletar dados suficientes para treinar modelos de IA massivos. A OpenAI supostamente usou o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o modelo mais recente e avançado subjacente ao ChatGPT.

A OpenAI e o Google não responderam imediatamente aos pedidos de comentários do Gizmodo.

O relatório do The New York Times pode ter grandes implicações para a batalha em andamento da OpenAI e do Google na vanguarda do desenvolvimento de IA generativa. O Google é improvável de ficar em silêncio se a OpenAI estiver usando seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais alegações. Em comunicado ao The Verge neste fim de semana, um porta-voz do Google apenas disse que viu “relatos não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenham permissões claras da empresa. O YouTube também proíbe o uso de seu conteúdo para quaisquer usos “independentes” de seu serviço.

A Diretora de Tecnologia da OpenAI, Mira Murati, disse que não tinha certeza se os vídeos do YouTube foram usados para treinar o modelo de IA de texto para vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre Sora, ou os próprios vídeos do YouTube. No entanto, sua hesitação em responder diretamente a essa pergunta leva a maiores especulações.

O próprio The New York Times está em uma batalha de direitos autorais com a OpenAI no momento. A OpenAI e o Meta também estão sendo processados por um número de autores e casas de conteúdo por treinarem sua IA em obras protegidas por direitos autorais.

Se esses relatos forem verdadeiros, poderiam surgir questões completamente novas sobre a lei de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais em torno da IA foram feitas por pequenos editores, mas o Google poderia adicionar um peso real a essa luta se optasse por participar. Também seria uma forma para o Google desacelerar a OpenAI, que sem dúvida está vencendo a corrida de IA no momento.