OpenAI Reportedly Transcreveu 1 Milhão de Horas de Vídeos do YouTube para Treinar GPT-4.

De acordo com o The New York Times, a OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4. O relatório surge poucos dias depois que o CEO do YouTube, Neal Mohan, afirmou que transcrever vídeos do YouTube para treinamento de inteligência artificial seria uma “clara violação” das políticas em entrevista à Bloomberg.

“Ao carregarem seu trabalho árduo em nossa plataforma, os criadores têm certas expectativas. Uma delas é que os termos de serviço serão cumpridos”, disse Mohan à Bloomberg na semana passada. “Mas não permite que transcrições ou fragmentos de vídeo sejam baixados”.

O relatório do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube, de acordo com fontes. O artigo detalha como a OpenAI, e muitas empresas de tecnologia, estão enfrentando dificuldades para coletar dados suficientes para treinar modelos de inteligência artificial em grande escala. A OpenAI teria utilizado o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o mais recente e avançado modelo subjacente ao ChatGPT.

A OpenAI e o Google ainda não responderam imediatamente aos pedidos de comentários do Gizmodo. O relatório do The New York Times poderia ter grandes repercussões para a batalha contínua da OpenAI e do Google na vanguarda do desenvolvimento de IA generativa. O Google provavelmente não ficará quieto se a OpenAI estiver usando seu conteúdo para aprimorar o ChatGPT. No entanto, a empresa ainda não fez tais alegações. Em um comunicado ao The Verge neste fim de semana, um porta-voz do Google apenas disse que “viu relatórios não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou raspadores, a menos que tenham permissões claras da empresa. O YouTube também proíbe a utilização de seu conteúdo para quaisquer usos “independentes” de seu serviço.

A vice-presidente de tecnologia da OpenAI, Mira Murati, disse que não estava “certa” se os vídeos do YouTube foram usados para treinar o modelo de IA de texto para vídeo de sua empresa, Sora, quando perguntada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre Sora, ou os próprios vídeos do YouTube. No entanto, sua hesitação em responder diretamente a essa pergunta levanta especulações.

O The New York Times, por sua vez, está em uma batalha de direitos autorais com a OpenAI no momento. A OpenAI e o Meta também estão sendo processados por vários autores e casas de conteúdo por treinarem sua IA em obras protegidas por direitos autorais.

Se esses relatórios forem verdadeiros, poderão surgir novas questões sobre a lei de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais relacionadas à IA tem sido feita por pequenos editores, mas o Google poderia adicionar peso real a essa luta se optar por participar. Também apresentaria uma forma para o Google desacelerar a OpenAI, que está sem dúvida liderando a corrida da IA no momento.