A Microsoft anunciou sua mais nova ferramenta de inteligência artificial, o VASA-1. Ela é capaz de pegar imagens estáticas de rostos humanos e transformá-las em clipes animados, com resolução de 512 x 512 pixels e até 40 quadros por segundo.
O modelo processa a imagem e um clipe de áudio de pelo menos um minuto, que pode ser um discurso ou uma música. A partir disso, ele cria um vídeo que não apenas faz a sincronização de lábios de forma precisa, mas reproduz microexpressões faciais de maneira fiel.
Além de usar fotos reais, o VASA-1 pode dar vida a representações artísticas de figuras humanas, como desenhos ou obras de arte.
Um dos vídeos de demonstração que mais fizeram sucesso na internet mostra uma imagem do quadro “Mona Lisa”, de Leonardo da Vinci, cantando o rap “Paparazzi”, um meme da atriz Anne Hathaway durante uma entrevista no talk show do apresentador americano Conan O’Brien.
Microsoft Just Changed the Game!
Experience VASA-1’s stunning photo realism.
Here are 10 mind-blowing examples:
— MagicHustler (@MagicHustler_) April 18, 2024
Microsoft não vai liberar VASA-1 ao público
Embora a ferramenta desperte curiosidade, a Microsoft não tem planos de liberá-la para o público. A ideia, a princípio, é usar o VASA-1 apenas para fins de pesquisa.
A empresa diz ter preocupações com os possíveis impactos negativos que o modelo de geração de deepfakes pode ter. Em comunicado, a companhia afirmou que o propósito da ferramenta não é enganar. Porém, reconhece também que, caso libere para um público mais amplo, não poderá controlar o uso indevido da ferramenta. Entre as preocupações está a geração de vídeos falsos de pessoas, que tenham prejuízos na vida real.
A postura da Microsost é bastante parecida com a da OpenAI com o Sora, ferramenta de geração de vídeos ultrarrealistas com base em comandos de texto. A “mãe do ChatGPT” não lançará o modelo para todas as pessoas e estuda ao lado de especialistas em IA possíveis aplicações que gerem benefícios à humanidade.