Paulo Sobral
18 de maio de 2024
Inteligência Artificial

Editores Oferecem Seu Conteúdo para o Topo das Respostas do ChatGPT da OpenAI

O Financial Times anunciou na segunda-feira uma parceria com a OpenAI para licenciar seu jornalismo de classe mundial para treinar e informar os modelos do ChatGPT. Isso se une a Axel Springer e à Associated Press, que firmaram acordos semelhantes, onde a OpenAI supostamente oferece milhões pelo direito de usar o conteúdo. No entanto, o ChatGPT foi treinado em muitos outros conteúdos raspados da web pelos quais a OpenAI não pagou. Então por que a OpenAI paga por alguns conjuntos de dados e por outros não?

Os acordos de licenciamento da OpenAI parecem enviar uma mensagem clara: vamos usar seu conteúdo de qualquer maneira, então assine um acordo conosco ou fique para trás. A principal vantagem de um acordo de licenciamento parece estar em um local de destaque nas respostas do ChatGPT. Alguns editores também podem querer solidificar um relacionamento com o próximo grande canal de distribuição de informações antes que ele domine. No entanto, parece que a OpenAI está usando de qualquer forma o conteúdo de muitos editores.

A OpenAI já treina seus modelos de IA em parte em “dados disponíveis publicamente” de acordo com a CTO Mira Murati, o que parece propositalmente vago. O que são dados publicamente disponíveis afinal? A frase pressupõe que qualquer coisa gratuita para ler na internet também é gratuita para ser integrada ao ChatGPT. Por exemplo, o Gizmodo faz parte dos “dados disponíveis publicamente” da OpenAI. Nosso site foi armazenado mais de 34.000 vezes no conjunto de dados WebText do GPT-2, o último conjunto de dados que a OpenAI divulgou usar para treinar um modelo de IA.

O Gizmodo é gratuito para os leitores em grande parte por causa dos anúncios nesta página da web. Se os leitores puderem acessar nosso conteúdo por meio do ChatGPT, isso compromete nosso modelo de negócio. O New York Times, que é significativamente mais utilizado no conjunto de dados WebText do GPT-2, processou a OpenAI por violação de direitos autorais nesta questão.

Um acordo de licenciamento de conteúdo com a OpenAI parece ser a única maneira para os editores permanecerem relevantes na era da IA. Em um comunicado à imprensa, o CEO do Financial Times Group, John Ridding, diz que este acordo “ampliará o alcance” de seu trabalho, ao mesmo tempo que oferece “informações antecipadas sobre como o conteúdo é destacado por meio da IA”.

“O que tem sobre a IA é que não é realmente inteligência artificial”, disse Matthew Butterick, advogado que representa Sarah Silverman e outros autores processando a OpenAI, em uma entrevista ao Gizmodo. “É inteligência humana que foi coletada de um lugar, separada de seus criadores, então essa grande empresa de tecnologia coloca um preço e vende para outra pessoa.”

Butterick é o autor de seis ações judiciais por violação de direitos autorais contra empresas de IA. Ele também é escritor, programador e designer, então ele diz que entende como a IA pode ameaçar essas indústrias. Em termos gerais, seus casos giram em torno da alegação de que a IA usa simultaneamente o trabalho dos criadores e ameaça seu sustento.

Os acordos de licenciamento da OpenAI levantaram uma sobrancelha em relação ao conteúdo que o ChatGPT usa gratuitamente. Empresas de tecnologia argumentaram que a IA generativa é um “uso justo” de obras protegidas por direitos autorais porque as transforma em algo novo. O mundo da IA também argumentou que está usando um modelo semelhante ao do Google Search, que armazena em cache conteúdo protegido por direitos autorais para criar uma ferramenta útil de busca de informações. Semelhante ao Google, os chatbots de IA recentemente começaram a incluir hiperlinks. Por fim, um tribunal terá que decidir se a IA generativa é um “uso justo”.

A OpenAI não respondeu imediatamente ao pedido de comentário do Gizmodo.

Autores de livros e editores não são os únicos de quem a OpenAI parece estar retirando conteúdo. O New York Times relatou recentemente que a OpenAI treinou o GPT-4 em mais de um milhão de horas de vídeos do YouTube transcritos. Dias antes do relatório ser divulgado, o CEO do YouTube disse que usar seus vídeos para treinamento de IA seria uma “clara violação” de suas políticas.

Os acordos de licenciamento de conteúdo da OpenAI tornam confusa a discussão. A empresa está de alguma forma usando conteúdo da internet gratuitamente, enquanto paga a outros por seu trabalho. Outras empresas de tecnologia, como a Apple, teriam sido mais proativas em pagar por todos os seus dados de treinamento. A Adobe teria pago $3 por minuto de vídeo para treinar seu gerador de vídeo de IA.

No entanto, não está claro se mesmo um pagamento único para obter dados de treinamento de IA é suficiente. Estamos falando de uma ferramenta que poderia potencialmente transformar a indústria de mídia para escritores, produtores de áudio e vídeo e muito mais. Assinar um acordo com a OpenAI pode garantir um bom lugar nos resultados do ChatGPT, mas parece que o chatbot de IA poderia estar usando seu conteúdo de qualquer maneira. Pelo menos por enquanto, empresas de IA estão ansiosas para usar tudo na internet e questionar a legalidade de tudo isso posteriormente.

Paulo Sobral

Especialista em segurança digital, ajudo você a se proteger contra hackers, malwares e outras ameaças virtuais. Compartilho notícias, dicas e as melhores práticas para manter seus dados seguros e sua vida online protegida.

Aqui você encontra as últimas notícias do Brasil e do mundo, de forma acessível e descomplicada, sem jargões técnicos ou linguagem rebuscada. A equipe do Café com Leite acredita que a informação de qualidade deve ser acessível a todos, por isso, busca apresentar os fatos de maneira clara, objetiva e imparcial.

O Café com Leite é um portal de notícias que te convida a começar o dia bem informado, com um conteúdo leve e informativo.