Alex Barbosa
15 de maio de 2024
Inteligência Artificial

OpenAI teria Transcrito 1 Milhão de Horas de Vídeos do YouTube para Treinar o GPT-4.

De acordo com um relatório do The New York Times, a OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4. O relatório vem apenas dias depois que o CEO do YouTube, Neal Mohan, afirmou que transcrever vídeos do YouTube para treinamento de inteligência artificial seria uma clara violação de suas políticas em uma entrevista à Bloomberg.

A reportagem do The New York Times alega que membros da equipe da OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube. O artigo detalha como a OpenAI, e muitas empresas de tecnologia, estão enfrentando dificuldades para coletar dados suficientes para treinar enormes modelos de inteligência artificial. A OpenAI teria utilizado o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o mais recente e avançado modelo subjacente ao ChatGPT.

A OpenAI e o Google não responderam imediatamente aos pedidos de comentários do Gizmodo.

O relatório do The New York Times poderia ter grandes implicações para a batalha em andamento entre OpenAI e Google na vanguarda do desenvolvimento de inteligência artificial generativa. O Google não deve permanecer em silêncio se a OpenAI estiver utilizando seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais alegações. Em declaração ao The Verge neste fim de semana, um porta-voz do Google apenas disse que viu “relatos não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenham permissão clara da empresa. O YouTube também proíbe a utilização de seu conteúdo para quaisquer usos “independentes” de seu serviço.

A diretora de tecnologia da OpenAI, Mira Murati, disse que não estava “certa” se os vídeos do YouTube foram usados para treinar o modelo de inteligência artificial de texto para vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março. O relatório do The New York Times não menciona nada sobre Sora, ou os próprios bits do YouTube. No entanto, sua hesitação em responder essa pergunta diretamente leva a especulações maiores.

O The New York Times, por sua vez, está em uma batalha de direitos autorais com a OpenAI no momento. A OpenAI e a Meta também estão sendo processadas por vários autores e casas de conteúdo por treinarem sua IA em obras protegidas por direitos autorais.

Se esses relatórios forem verdadeiros, poderiam surgir questões totalmente novas sobre a lei de direitos autorais no mundo da IA. A maioria das reclamações de direitos autorais em torno da IA foram feitas por pequenos editores, mas o Google poderia adicionar algum peso real a essa luta se escolhesse participar. Também apresentaria uma maneira para o Google desacelerar a OpenAI, que está indiscutivelmente liderando a corrida da IA no momento.

Alex Barbosa

Apaixonado por tecnologia e inovações. Compartilho meu conhecimento e insights sobre o futuro, desde inteligência artificial até realidade virtual. Junte-se a mim nesta jornada para desvendar as maravilhas da tecnologia e seu impacto no mundo.

Aqui você encontra as últimas notícias do Brasil e do mundo, de forma acessível e descomplicada, sem jargões técnicos ou linguagem rebuscada. A equipe do Café com Leite acredita que a informação de qualidade deve ser acessível a todos, por isso, busca apresentar os fatos de maneira clara, objetiva e imparcial.

O Café com Leite é um portal de notícias que te convida a começar o dia bem informado, com um conteúdo leve e informativo.