A OpenAI apresentou Sora, seu principal gerador de texto para vídeo, na quinta-feira, com vídeos belos e surpreendentemente realistas que demonstram as capacidades do modelo de IA. Sora agora está disponível para um pequeno número de pesquisadores e criativos que irão testar o modelo antes de um lançamento mais amplo ao público, o que poderia representar um desastre para a indústria cinematográfica e para o nosso problema coletivo de deepfake.
“Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimentos e detalhes precisos do sujeito e do fundo”, disse a OpenAI em uma postagem no blog. “O modelo não só entende o que o usuário pediu no prompt, mas também como essas coisas existem no mundo físico.”
A OpenAI não revelou quando Sora será lançado ao público.
Sora é a primeira incursão da OpenAI na geração de vídeos com IA, somando-se aos geradores de texto e imagem da empresa, ChatGPT e Dall-E. É único porque é menos uma ferramenta criativa e mais uma “motor de física orientado por dados”, como apontado pelo Dr. Jim Fan, pesquisador sênior da Nvidia. Sora não está apenas gerando uma imagem, mas determinando a física de um objeto em seu ambiente e renderizando um vídeo com base nesses cálculos.
Para gerar vídeos com Sora, os usuários podem simplesmente digitar algumas frases como prompt, assim como nos geradores de imagens de IA. Você pode escolher entre um estilo fotorrealista ou animado, produzindo resultados surpreendentes em apenas alguns minutos.
Sora é um modelo de difusão, o que significa que gera vídeos começando com um vídeo borrado e cheio de estática e lentamente o suaviza para as versões polidas que você vê abaixo. Os geradores de imagem e vídeo do Midjourney e do Stable Diffusion também são modelos de difusão.
No entanto, vale ressaltar que o Sora da OpenAI é muito melhor. Os vídeos que Sora produz são mais longos, mais dinâmicos e fluem melhor do que os dos concorrentes. Sora parece criar vídeos reais, enquanto os modelos concorrentes parecem uma animação de imagens de IA. A OpenAI mais uma vez revolucionou mais um campo da IA com um gerador de vídeo que envergonha a concorrência.
Os vídeos produzidos por Sora são incríveis. Esses vídeos provavelmente teriam levado horas para serem produzidos por uma equipe de filmagem ou animadores reais. Sora provavelmente será disruptivo para a indústria cinematográfica da mesma forma que o ChatGPT e os geradores de imagem de IA chocaram o mundo editorial e de design. É uma tecnologia notável, mas também assustadora em termos de segurança no trabalho para criadores de vídeo.
A OpenAI diz que há algumas melhorias a serem feitas, como não entender a causa e o efeito. Sora pode gerar um vídeo de uma pessoa dando uma mordida em um cookie, mas depois o cookie pode não ter a marca de mordida. A OpenAI também diz que o modelo carece de consciência espacial. Pode confundir esquerda e direita e não entender como uma pessoa ou objeto interage com uma cena.
A segurança também é uma preocupação primordial, especialmente dado como a tecnologia de IA tem sido abusada para criar deepfakes nos últimos meses. A OpenAI diz que vai construir ferramentas para ajudar a detectar conteúdo enganoso, além de aplicar tecnologias existentes que rejeitam prompts de texto prejudiciais. No entanto, considerando como as pessoas têm contornado as proteções dos modelos de IA atuais, é questionável o quão bem-sucedidos serão esses esforços.
Sora é impressionante, mas também aterrorizante, e fica claro como este poderoso gerador de vídeo de IA poderia perturbar a indústria cinematográfica e criar resultados prejudiciais. Imagine se os deepfakes da Taylor Swift fossem vídeos. Ou e se a ligação telefônica de Joe Biden com deepfake para os eleitores de New Hampshire fosse uma mensagem fotorrealista do Salão Oval? Sora ainda não está disponível ao público, mas as implicações de uma tecnologia tão poderosa antecedem o seu lançamento.