OpenAI Relata Ter Transcrito 1 Milhão de Horas de Vídeos do YouTube para Treinar GPT-4

Segundo o The New York Times, a OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4. O relatório vem apenas dias depois que o CEO do YouTube, Neal Mohan, disse que transcrever vídeos do YouTube para treinar a inteligência artificial seria uma clara violação das políticas da plataforma em uma entrevista à Bloomberg.

O relatório do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube. O artigo detalha como a OpenAI, juntamente com muitas empresas de tecnologia, enfrentam dificuldades para coletar dados suficientes para treinar modelos de inteligência artificial massivos. A OpenAI supostamente usou o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o mais recente e avançado modelo subjacente ao ChatGPT.

A OpenAI e o Google não responderam imediatamente aos pedidos de comentário do Gizmodo.

O relatório do The New York Times poderia ter grandes implicações para a batalha em andamento entre a OpenAI e o Google no desenvolvimento de IA generativa. O Google provavelmente não ficará em silêncio se a OpenAI estiver usando seu conteúdo para aprimorar o ChatGPT. No entanto, a empresa ainda não fez tais alegações. Em uma declaração ao The Verge neste fim de semana, um porta-voz do Google apenas disse ter “visto relatórios não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenham permissões claras da empresa. O YouTube também proíbe a utilização de seu conteúdo para quaisquer usos “independentes” de seu serviço.

A Diretora de Tecnologia da OpenAI, Mira Murati, disse que não tem certeza se os vídeos do YouTube foram usados para treinar o modelo de IA de texto para vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre o Sora, ou os próprios bits do YouTube. No entanto, sua hesitação em responder a essa pergunta diretamente leva a especulações maiores.

O próprio The New York Times está em uma batalha de direitos autorais com a OpenAI no momento. A OpenAI e o Meta também estão sendo processados por diversos autores e casas de conteúdos por treinarem sua IA em obras protegidas por direitos autorais.

Se esses relatórios forem verdadeiros, poderiam surgir questões inteiramente novas sobre a legislação de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais em torno da IA foram feitas por pequenos editores, mas o Google poderia adicionar um peso real a essa luta se optar por se envolver. Também apresentaria uma maneira para o Google desacelerar a OpenAI, que sem dúvida está ganhando a corrida da IA no momento.