De acordo com um relatório do The New York Times, a OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4. O relatório vem apenas dias depois que o CEO do YouTube, Neal Mohan, afirmou que transcrever vídeos do YouTube para treinamento de inteligência artificial seria uma clara violação de suas políticas em uma entrevista à Bloomberg.
A reportagem do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube. O artigo detalha como a OpenAI, e muitas empresas de tecnologia, estão enfrentando dificuldades para coletar dados suficientes para treinar enormes modelos de inteligência artificial. A OpenAI teria utilizado o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o mais recente e avançado modelo subjacente ao ChatGPT.
A OpenAI e o Google não responderam imediatamente aos pedidos de comentários do Gizmodo.
O relatório do The New York Times poderia ter grandes implicações para a batalha em andamento entre OpenAI e Google na vanguarda do desenvolvimento de inteligência artificial generativa. O Google não deve permanecer em silêncio se a OpenAI estiver utilizando seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais alegações. Em declaração ao The Verge neste fim de semana, um porta-voz do Google apenas disse que viu “relatos não confirmados” sobre o treinamento da OpenAI.
Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenham permissão clara da empresa. O YouTube também proíbe a utilização de seu conteúdo para quaisquer usos “independentes” de seu serviço.
A diretora de tecnologia da OpenAI, Mira Murati, disse que não estava “certa” se os vídeos do YouTube foram usados para treinar o modelo de inteligência artificial de texto para vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre Sora, ou os próprios bits do YouTube. No entanto, sua hesitação em responder essa pergunta diretamente leva a especulações maiores.
O The New York Times, por sua vez, está em uma batalha de direitos autorais com a OpenAI no momento. A OpenAI e a Meta também estão sendo processadas por vários autores e casas de conteúdo por treinarem sua IA em obras protegidas por direitos autorais.
Se esses relatórios forem verdadeiros, poderiam surgir questões totalmente novas sobre a lei de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais em torno da IA foram feitas por pequenos editores, mas o Google poderia adicionar algum peso real a essa luta se escolhesse participar. Também apresentaria uma maneira para o Google desacelerar a OpenAI, que está indiscutivelmente liderando a corrida da IA no momento.