A OpenAI anunciou na terça-feira que a empresa está integrando sua mais recente tecnologia de geração de imagens em seu chatbot, ChatGPT, usando o modelo GPT-40 que foi revelado no ano passado.
Com a tecnologia combinada, o ChatGPT pode se tornar um ponto de referência único para conteúdo gerado artificialmente, substituindo o Dall-E 3, um sistema separado apenas para criação de imagens.
Em vez do Dall-E 3, a geração de imagens do ChatGPT utilizará o Sora, uma plataforma separada que a empresa introduziu no ano passado e que é dedicada à geração de vídeos. A OpenAI não detalhou nenhum plano para capacidades de geração de vídeos usando o ChatGPT em seu comunicado à imprensa.
A OpenAI afirmou que o maior avanço na capacidade de imagens do chatbot está na qualidade de suas habilidades de renderização de texto. A empresa afirma que seus sistemas agora podem gerar imagens com texto significativo e legível, sem distorções ou erros de digitação.
“Aprendemos nossos modelos na distribuição conjunta de imagens e texto online, aprendendo não apenas como as imagens se relacionam com a linguagem, mas como elas se relacionam umas com as outras.” A empresa afirmou em um comunicado à imprensa. “Combinado com treinamento agressivo pós-treinamento, o modelo resultante tem fluência visual surpreendente, capaz de gerar imagens úteis, consistentes e contextualizadas.”
A empresa disse que este sistema será capaz de usar imagens carregadas pelo usuário como inspirações visuais e é melhor em seguir instruções. A OpenAI afirma que “enquanto outros sistemas têm dificuldade com ~5-8 objetos, o GPT-40 pode lidar com até 10-20 objetos diferentes.”
No entanto, os avanços vêm com algumas desvantagens: o modelo pode cortar imagens mais longas perto da base, ainda está propenso a ver coisas que não estão lá e tem dificuldade em renderizar idiomas não latinos ou imagens que contenham texto em um tamanho muito pequeno.
O GPT-40 já está disponível nas assinaturas plus, pro, team e free do ChatGPT, mas os assinantes “plus” têm limites de uso mais altos do que os assinantes “free”. A empresa disse que em breve a funcionalidade estará disponível para usuários empresariais e educacionais, bem como para desenvolvedores que utilizam a API.
Aqui estão algumas demonstrações de imagem do comunicado de imprensa da empresa.