Editores Dão Seu Conteúdo para OpenAI em Troca do Primeiro Lugar nas Respostas do ChatGPT

O Financial Times anunciou na segunda-feira um acordo com a OpenAI para licenciar seu jornalismo de classe mundial para treinar e informar os modelos ChatGPT. Ele se une à Axel Springer e à Associated Press que firmaram acordos semelhantes, onde a OpenAI supostamente oferece milhões pelos direitos de uso do conteúdo. No entanto, o ChatGPT foi treinado em muito outro conteúdo rasgado da web que a OpenAI não pagou. Então, por que a OpenAI paga por alguns conjuntos de dados e não por outros?

Os acordos de licenciamento da OpenAI parecem enviar uma mensagem clara: vamos usar seu conteúdo de qualquer maneira, então assine um acordo conosco ou fique para trás. A principal vantagem de um acordo de licenciamento parece ser um local de destaque nas respostas do ChatGPT. Algumas editoras também podem querer solidificar um relacionamento com o próximo grande canal de distribuição de informações antes que ele domine. No entanto, parece que a OpenAI está usando muito conteúdo das editoras de qualquer maneira.

A OpenAI já treina seus modelos de IA em parte em “dados publicamente disponíveis”, de acordo com a CTO Mira Murati, o que parece propositalmente vago. O que são dados publicamente disponíveis afinal? A frase pressupõe que tudo o que é gratuito para ler na internet também é gratuito para ser incorporado ao ChatGPT. Por exemplo, o Gizmodo faz parte dos “dados publicamente disponíveis” da OpenAI. Nosso site foi armazenado mais de 34.000 vezes no conjunto de dados WebText do GPT-2, o último conjunto de dados que a OpenAI divulgou usando para treinar um modelo de IA.

O Gizmodo é gratuito para os leitores em grande parte devido aos anúncios nesta página da web. Se os leitores puderem acessar nosso conteúdo através do ChatGPT, isso prejudica nosso modelo de negócios. O New York Times, que é usado significativamente mais no conjunto de dados WebText do GPT-2, processou a OpenAI por violação de direitos autorais sobre essa questão.

Um acordo de licenciamento de conteúdo com a OpenAI parece ser a única maneira para as editoras se manterem relevantes na era da IA. Em um comunicado à imprensa, o CEO do Grupo Financial Times, John Ridding, diz que este acordo “ampliará o alcance” de seu trabalho, oferecendo “visões iniciais sobre como o conteúdo é apresentado através da IA”.

“O negócio é que a IA não é realmente inteligência artificial”, disse Matthew Butterick, advogado representando Sarah Silverman e outros autores de livros que processam a OpenAI, em uma entrevista ao Gizmodo. “É a inteligência humana que foi colhida de um lugar, divorciada de seus criadores, então essa grande empresa de tecnologia coloca um preço e vende para outra pessoa.”

Butterick é o autor de seis processos por violação de direitos autorais contra empresas de IA. Ele também é escritor, programador e designer, então ele diz que entende como a IA pode ameaçar essas indústrias. Em geral, seus casos giram em torno da alegação de que a IA usa simultaneamente o trabalho dos criadores e ameaça seu sustento.

Os acordos de licenciamento da OpenAI chamaram a atenção para o conteúdo que o ChatGPT usa gratuitamente. As empresas de tecnologia argumentam que a IA generativa é um “uso justo” de obras protegidas por direitos autorais, pois as transforma em algo novo. O mundo da IA também argumentou que está usando um modelo semelhante ao do Google Search, que armazena em cache conteúdo protegido por direitos autorais para criar uma ferramenta útil de busca de informações. Semelhante ao Google, os chatbots de IA começaram recentemente a incluir links. Em última análise, um tribunal terá que decidir se a IA generativa é um “uso justo”.

A OpenAI não respondeu imediatamente ao pedido de comentário do Gizmodo.

Os autores de livros e editoras não são os únicos que a OpenAI parece estar pegando conteúdo. O New York Times informou recentemente que a OpenAI treinou o GPT-4 em mais de um milhão de horas de vídeos do YouTube transcritos. Dias antes do relatório ser divulgado, o CEO do YouTube disse que usar seus vídeos para treinamento de IA seria uma “clara violação” de suas políticas.

Os acordos de licenciamento de conteúdo da OpenAI turvam as águas da discussão. A empresa está de alguma forma usando conteúdo da internet gratuitamente, enquanto também paga a outros por seu trabalho. Outras empresas de tecnologia, como a Apple, teriam sido mais ativas em pagar por todos os seus dados de treinamento. A Adobe teria pago $3 por minuto de vídeo para treinar seu gerador de vídeo de IA.

No entanto, não está claro se um pagamento único para obtenção de dados de treinamento de IA é suficiente. Estamos falando de uma ferramenta que poderia potencialmente inverter a indústria de mídia para escritores, produtores de áudio e vídeo e muito mais. Assinar um acordo com a OpenAI poderia garantir um bom lugar nos resultados do ChatGPT, mas parece que o chatbot de IA pode estar usando seu conteúdo de qualquer maneira. Pelo menos por enquanto, as empresas de IA estão ansiosas para usar tudo na internet e questionar a legalidade de tudo mais tarde.