Paulo Sobral
19 de maio de 2024
Inteligência Artificial

Editores Dão Seu Conteúdo para OpenAI Ter Destaque nas Respostas do ChatGPT

O Financial Times anunciou um acordo com a OpenAI na segunda-feira para licenciar seu jornalismo de classe mundial para treinar e informar os modelos do ChatGPT. Junta-se à Axel Springer e à Associated Press que fecharam acordos semelhantes, onde a OpenAI supostamente oferece milhões para o direito de usar conteúdo. No entanto, o ChatGPT foi treinado em muito outro conteúdo raspado na web que a OpenAI não pagou. Então, por que a OpenAI paga por alguns conjuntos de dados e não por outros?

Os acordos de licenciamento da OpenAI parecem enviar uma mensagem clara: vamos usar seu conteúdo de qualquer maneira, então assine um contrato conosco ou fique para trás. A principal vantagem de um acordo de licenciamento parece ser um local de destaque nas respostas do ChatGPT. Alguns editores também podem querer solidificar um relacionamento com o próximo grande canal de distribuição de informações antes que ele assuma. No entanto, parece que a OpenAI está usando muitos conteúdos de editores de qualquer maneira.

A OpenAI já treina seus modelos de IA em parte com “dados disponíveis publicamente” de acordo com a CTO Mira Murati, o que parece propositadamente vago. O que são dados publicamente disponíveis afinal? A frase pressupõe que qualquer coisa gratuita para ler na internet também é gratuita para ser incorporada no ChatGPT. Por exemplo, o Gizmodo faz parte dos “dados disponíveis publicamente” da OpenAI. Nosso site foi armazenado em mais de 34.000 vezes no conjunto de dados WebText do GPT-2, o último conjunto de dados que a OpenAI divulgou usando para treinar um modelo de IA.

O Gizmodo é gratuito para os leitores em grande parte devido aos anúncios nesta página da web. Se os leitores podem acessar nosso conteúdo através do ChatGPT, isso viola nosso modelo de negócios. O New York Times, que é usado significativamente mais no conjunto de dados WebText do GPT-2, processou a OpenAI por violação de direitos autorais sobre essa questão.

Um acordo de licenciamento de conteúdo com a OpenAI parece ser a única maneira para os editores se manterem relevantes na era da IA. Em um comunicado à imprensa, o CEO do Grupo Financial Times, John Ridding, diz que este acordo “ampliará o alcance” de seu trabalho, oferecendo “visões precoces de como o conteúdo é apresentado através da IA”.

“O que se trata da IA não é realmente inteligência artificial”, disse Matthew Butterick, um advogado representando Sarah Silverman e outros autores de livros processando a OpenAI, em entrevista ao Gizmodo. “É uma inteligência humana que foi colhida de um lugar, divorciada de seus criadores, então esta grande empresa de tecnologia coloca um preço e vende para outra pessoa.”

Butterick é autor de seis ações judiciais por violação de direitos autorais contra empresas de IA. Ele também é escritor, programador e designer, então ele diz entender como a IA pode ameaçar essas indústrias. Em linhas gerais, seus casos giram em torno da alegação de que a IA simultaneamente usa o trabalho dos criadores e ameaça seu sustento.

Os acordos de licenciamento da OpenAI levantaram uma sobrancelha em relação ao conteúdo que o ChatGPT usa gratuitamente. As empresas de tecnologia argumentam que a IA generativa é um “uso justo” de obras protegidas por direitos autorais porque as transforma em algo novo. O mundo da IA também argumentou que está usando um modelo semelhante ao Google Search, que armazena em cache conteúdo protegido por direitos autorais para criar uma ferramenta útil de busca de informações. Semelhante ao Google, os chatbots de IA recentemente começaram a incluir hiperlinks. No final, um tribunal terá que decidir se a IA generativa é um “uso justo”.

A OpenAI não respondeu imediatamente ao pedido de comentário do Gizmodo.

Autores de livros e editores não são os únicos que a OpenAI parece estar tirando conteúdo. O New York Times relatou recentemente que a OpenAI treinou o GPT-4 em mais de um milhão de horas de vídeos transcritos do YouTube. Dias antes do relatório ser divulgado, o CEO do YouTube disse que usar seus vídeos para treinar IA seria uma “clara violação” de suas políticas.

Os acordos de licenciamento de conteúdo da OpenAI complicam a discussão. A empresa está de alguma forma usando conteúdo da internet gratuitamente, enquanto paga a outros por seus trabalhos. Outras empresas de tecnologia, como a Apple, aparentemente têm sido mais proativas em pagar por todos os seus dados de treinamento. A Adobe supostamente pagou $3 por minuto de vídeo para treinar seu gerador de vídeo de IA.

No entanto, não está claro se até mesmo um pagamento único para obter dados de treinamento de IA é suficiente. Estamos falando de uma ferramenta que potencialmente pode inverter toda a indústria de mídia para escritores, produtores de áudio e vídeo, e mais. Assinar um acordo com a OpenAI poderia garantir-lhe um bom lugar nos resultados do ChatGPT, mas parece que o chatbot de IA pode ter estado usando seu conteúdo de qualquer maneira. Pelo menos por enquanto, as empresas de IA estão ansiosas para usar tudo na internet e questionar a legalidade de tudo depois.

Paulo Sobral

Especialista em segurança digital, ajudo você a se proteger contra hackers, malwares e outras ameaças virtuais. Compartilho notícias, dicas e as melhores práticas para manter seus dados seguros e sua vida online protegida.