O Financial Times anunciou um acordo com a OpenAI na segunda-feira para licenciar seu jornalismo de classe mundial para treinar e informar os modelos do ChatGPT. É unido a Axel Springer e à Associated Press que fizeram acordos semelhantes, onde a OpenAI supostamente oferece milhões pelo direito de usar o conteúdo. No entanto, o ChatGPT foi treinado com muito outro conteúdo web-scraped que a OpenAI não pagou. Então, por que a OpenAI paga por alguns conjuntos de dados e outros não?
Os acordos de licença da OpenAI parecem enviar uma mensagem clara: vamos usar seu conteúdo de qualquer maneira, então assine um acordo conosco ou fique para trás. O principal benefício de um acordo de licenciamento parece ser um lugar proeminente nas respostas do ChatGPT. Alguns editores também podem querer solidificar um relacionamento com o próximo grande canal de distribuição de informações antes que ele domine. No entanto, parece que a OpenAI está usando o conteúdo de muitos editores de qualquer maneira.
A OpenAI já treina seus modelos de IA em parte com “dados publicamente disponíveis”, de acordo com a CTO Mira Murati, o que parece propositalmente vago. O que são dados publicamente disponíveis mesmo? A frase pressupõe que qualquer coisa gratuita para ler na internet também é gratuita para ser incorporada ao ChatGPT. Por exemplo, o Gizmodo faz parte dos “dados publicamente disponíveis” da OpenAI. Nosso site foi armazenado mais de 34.000 vezes no conjunto de dados WebText do GPT-2, o último conjunto de dados que a OpenAI divulgou usando para treinar um modelo de IA.
O Gizmodo é gratuito para leitores em grande parte devido aos anúncios nesta página da web. Se os leitores puderem acessar nosso conteúdo por meio do ChatGPT, isso quebra nosso modelo de negócios. O New York Times, que é muito mais usado no conjunto de dados WebText do GPT-2, processou a OpenAI por violação de direitos autorais nessa mesma questão.
Um acordo de licenciamento de conteúdo com a OpenAI parece ser a única maneira para os editores se manterem relevantes na era da IA. Em um comunicado à imprensa, o CEO do Financial Times Group, John Ridding, afirma que esse acordo “ampliará o alcance” de seu trabalho, oferecendo “primeiras visões sobre como o conteúdo é apresentado por meio da IA”.
“O fato sobre a IA é que não é realmente inteligência artificial”, disse Matthew Butterick, um advogado representando Sarah Silverman e outros autores de livros que processam a OpenAI, em uma entrevista ao Gizmodo. “É uma inteligência humana que foi colhida de um lugar, separada de seus criadores, e depois essa grande empresa de tecnologia coloca um preço nela e vende para outra pessoa.”
Butterick é o autor de seis processos judiciais por violação de direitos autorais contra empresas de IA. Ele também é escritor, programador e designer, então ele diz que entende como a IA pode ameaçar essas indústrias. Em termos gerais, seus casos giram em torno de uma alegação de que a IA utiliza simultaneamente o trabalho dos criadores e ameaça seu sustento.
Os acordos de licenciamento da OpenAI levantaram uma sobrancelha em relação ao conteúdo que o ChatGPT usa gratuitamente. Empresas de tecnologia argumentaram que a IA generativa é um “uso justo” de obras protegidas por direitos autorais porque as transforma em algo novo. O mundo da IA também argumentou que está usando um modelo semelhante ao do Google Search, que armazena em cache conteúdo protegido por direitos autorais para criar uma ferramenta útil de busca de informações. Semelhante ao Google, os chatbots de IA recentemente começaram a incluir links. Em última análise, um tribunal terá que decidir se a IA generativa é um “uso justo”.
A OpenAI não respondeu imediatamente ao pedido de comentário do Gizmodo.
Autores de livros e editores não são os únicos de onde a OpenAI parece estar tirando conteúdo. O New York Times relatou recentemente que a OpenAI treinou o GPT-4 por mais de um milhão de horas de vídeos transcritos do YouTube. Dias antes do relatório sair, o CEO do YouTube disse que usar seus vídeos para treinamento de IA seria uma “violação clara” de suas políticas.
Os acordos de licenciamento de conteúdo da OpenAI turvam as águas da discussão. A empresa de alguma forma está usando conteúdo da internet de graça, enquanto também paga a outros pelo seu trabalho. Outras empresas de tecnologia, como a Apple, supostamente foram mais proativas em pagar por todos os seus dados de treinamento. A Adobe supostamente pagou $3 por minuto de vídeo para treinar seu gerador de vídeo de IA.
No entanto, não está claro se até mesmo um pagamento único para obter dados de treinamento de IA é suficiente. Estamos falando de uma ferramenta que poderia potencialmente inverter a indústria midiática para escritores, produtores de áudio e vídeo e muito mais. Assinar um acordo com a OpenAI pode garantir a você um bom lugar nos resultados do ChatGPT, mas parece que o chatbot de IA pode ter estado usando seu conteúdo de qualquer maneira. Pelo menos por enquanto, as empresas de IA estão ansiosas para usar tudo na internet e perguntar sobre a legalidade de tudo mais tarde.