OpenAI Reportedly Transcribed 1 Million Hours of YouTube Videos to Train GPT-4

Diz-se que OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4, de acordo com uma reportagem do The New York Times no sábado. O relatório surge dias depois de o CEO do YouTube, Neal Mohan, afirmar que transcrever vídeos do YouTube para treinar IA seria uma “clara violação” das políticas da empresa em uma entrevista ao Bloomberg.

“Quando um criador envia seu trabalho árduo para nossa plataforma, ele tem certas expectativas. Uma dessas expectativas é que os termos de serviço serão cumpridos”, disse Mohan em uma entrevista ao Bloomberg na semana passada. “Mas isso não permite que transcrições ou trechos de vídeos sejam baixados.”

O relatório do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube, de acordo com fontes. O artigo detalha como a OpenAI, assim como muitas empresas de tecnologia, estão enfrentando dificuldades para coletar dados suficientes para treinar modelos de IA massivos. A OpenAI supostamente usou o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o mais recente e avançado modelo subjacente ao ChatGPT.

A OpenAI e o Google não responderam imediatamente aos pedidos de comentário do Gizmodo.

O relatório do The New York Times poderia ter grandes implicações para a batalha em curso entre a OpenAI e o Google no desenvolvimento da IA generativa. O Google provavelmente não ficará em silêncio se a OpenAI estiver usando seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais alegações. Em uma declaração ao The Verge neste fim de semana, um porta-voz do Google disse apenas que “viu relatos não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenham permissão clara da empresa. O YouTube também proíbe a utilização de seu conteúdo para qualquer uso “independente” de seu serviço.

A diretora de tecnologia da OpenAI, Mira Murati, disse que não estava “certa” se os vídeos do YouTube foram usados para treinar o modelo de IA de texto para vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre Sora, ou os próprios trechos do YouTube. No entanto, sua hesitação em responder a essa pergunta diretamente leva a uma maior especulação.

O próprio The New York Times está em uma batalha de direitos autorais com a OpenAI no momento. A OpenAI e o Meta também estão sendo processados por vários autores e casas de conteúdo por treinarem sua IA em obras protegidas por direitos autorais.

Se esses relatos forem verdadeiros, poderiam surgir novas questões sobre a lei de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais em torno da IA foram feitas por pequenos editores, mas o Google poderia trazer um peso real para essa luta se escolhesse participar. Também apresentaria uma maneira para o Google desacelerar a OpenAI, que sem dúvida está liderando a corrida da IA no momento.