Relatório da OpenAI informa que 1 milhão de horas de vídeos do YouTube foram transcritas para treinar o GPT-4.

A OpenAI supostamente transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4, de acordo com o The New York Times no sábado. O relatório vem apenas dias depois que o CEO do YouTube, Neal Mohan, disse que transcrever vídeos do YouTube para treinamento de IA seria uma “violação clara” de suas políticas em uma entrevista para a Bloomberg.

“Quando um criador faz upload de seu trabalho árduo em nossa plataforma, ele tem certas expectativas. Uma dessas expectativas é que os termos de serviço serão cumpridos”, disse Mohan em uma entrevista para a Bloomberg na semana passada. “Mas isso não permite que transcrições ou trechos de vídeo sejam baixados”.

O relatório do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube, de acordo com fontes. O artigo detalha como a OpenAI, e muitas empresas de tecnologia, estão enfrentando dificuldades para coletar dados suficientes para treinar modelos de IA massivos. A OpenAI supostamente usou o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o último e maior modelo subjacente ao ChatGPT.

A OpenAI e o Google não responderam imediatamente aos pedidos do Gizmodo por comentários.

O relatório do The New York Times poderia ter grandes implicações para a batalha em curso entre a OpenAI e o Google na vanguarda do desenvolvimento de IA generativa. O Google provavelmente não ficará em silêncio se a OpenAI estiver usando seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais alegações. Em comunicado ao The Verge neste fim de semana, um porta-voz do Google simplesmente disse que viu “relatos não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenham permissões claras da empresa. O YouTube também proíbe o uso de seu conteúdo para quaisquer usos “independentes” de seu serviço.

A Diretora de Tecnologia da OpenAI, Mira Murati, disse que “não tem certeza” se os vídeos do YouTube foram usados para treinar o modelo de IA de texto-para-vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre Sora, ou os próprios trechos do YouTube. No entanto, a hesitação em responder diretamente a essa pergunta leva a uma maior especulação.

O próprio The New York Times está em uma batalha por direitos autorais com a OpenAI no momento. A OpenAI e o Meta também estão sendo processados por vários autores e casas de conteúdo por treinar sua IA em obras protegidas por direitos autorais.

Se esses relatos forem verdadeiros, poderiam surgir novas questões sobre a lei de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais em torno da IA tem sido feita por pequenas editoras, mas o Google poderia adicionar peso real a essa luta se escolher participar. Também apresentaria uma maneira para o Google desacelerar a OpenAI, que sem dúvida está ganhando a corrida de IA no momento.