A OpenAI lançou o Sora, seu principal gerador de texto para vídeo, na quinta-feira, com vídeos belos e surpreendentemente realistas que mostram as capacidades do modelo de inteligência artificial. O Sora está disponível para um pequeno número de pesquisadores e criativos que irão testar o modelo antes do lançamento público mais amplo, o que poderá ser desastroso para a indústria cinematográfica e nosso problema coletivo de deepfake.
“Sora é capaz de gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do objeto e do fundo”, disse a OpenAI em um post no blog. “O modelo não só entende o que o usuário pediu na solicitação, mas também como essas coisas existem no mundo físico.”
A OpenAI não disse quando o Sora será lançado para o público em geral.
Sora é a primeira incursão da OpenAI na geração de vídeo por inteligência artificial, complementando os geradores de texto e imagem da empresa, ChatGPT e Dall-E. É único porque é menos uma ferramenta criativa e mais um “motor físico baseado em dados”, como destacou o pesquisador sênior da Nvidia, Dr. Jim Fan. Sora não está apenas gerando uma imagem, mas está determinando a física de um objeto em seu ambiente e renderizando um vídeo com base nesses cálculos.
Para gerar vídeos com o Sora, os usuários podem simplesmente digitar algumas frases como prompt, assim como nos geradores de imagem por IA. É possível escolher entre um estilo fotorrealista ou animado, produzindo resultados impressionantes em apenas alguns minutos.
Sora é um modelo de difusão, o que significa que gera vídeos começando com um vídeo borrado e cheio de estática e gradualmente o suaviza para as versões polidas que você vê abaixo. Os geradores de imagem e vídeo da Midjourney e da Stable Diffusion também são modelos de difusão.
No entanto, devo observar que o Sora da OpenAI é muito melhor. Os vídeos que o Sora produz são mais longos, mais dinâmicos e fluem melhor do que os dos concorrentes. O Sora parece criar vídeos reais, enquanto os modelos concorrentes parecem apenas uma animação de imagens de IA. A OpenAI mais uma vez revolucionou outro campo da IA com um gerador de vídeo que coloca a concorrência em xeque.
Os vídeos produzidos pelo Sora são incríveis. Esses vídeos levariam horas para serem produzidos por uma equipe de filmagem real ou por animadores. O Sora provavelmente será disruptivo para a indústria cinematográfica da mesma forma que o ChatGPT e os geradores de imagem por IA chocaram o mundo editorial e de design. É uma tecnologia que, ao mesmo tempo que é notável, também é assustadora em termos de segurança de emprego para criadores de vídeos.
A OpenAI diz que há algumas melhorias a serem feitas, incluindo não entender causa e efeito. O Sora pode gerar um vídeo de uma pessoa mordendo um biscoito, mas depois o biscoito pode não ter uma marca de mordida. A OpenAI também diz que o modelo carece de consciência espacial. Pode confundir esquerda e direita e não entender como uma pessoa ou objeto interage com uma cena.
A segurança também é uma preocupação primordial, especialmente dadas as formas como a tecnologia de IA tem sido usada de forma abusiva para criar deepfakes nos últimos meses. A OpenAI diz que construirá ferramentas para ajudar a detectar conteúdo enganoso, bem como aplicar tecnologias existentes que rejeitam solicitações de texto prejudiciais. No entanto, dadas as formas como as pessoas têm contornado as proteções dos modelos de IA atuais, é questionável o quão bem-sucedidos serão esses esforços.
O Sora é impressionante, assim como é aterrorizante, e é evidente como esse poderoso gerador de vídeos por IA poderia disruptir a indústria cinematográfica e criar resultados prejudiciais. Imagine se os deepfakes da Taylor Swift fossem vídeos. Ou se a ligação telefônica de deepfake do Joe Biden para os eleitores de New Hampshire fosse uma mensagem fotorrealista do Salão Oval? O Sora ainda não está disponível publicamente, mas as implicações dessa tecnologia poderosa precedem seu lançamento.