A Microsoft revelou recentemente a VASA-1, uma nova ferramenta de inteligência artificial capaz de transformar imagens estáticas em vídeos curtos. Usando tecnologia deepfake, o modelo é capaz não apenas de sincronizar os lábios com um áudio, mas também reproduzir expressões faciais realistas, inclusive na plataforma Teams.
Além de criar vídeos de pessoas reais, a IA também pode gerar vídeos de representações artísticas. Um exemplo de destaque foi a animação da Mona Lisa, de Leonardo da Vinci, cantando um rap.
Apesar de não disponibilizar a ferramenta ao público em geral devido ao potencial impacto negativo, a Microsoft planeja incorporar essa tecnologia em seus serviços. Uma das possíveis aplicações é no Microsoft Teams, onde os usuários poderão fazer videochamadas com a câmera desligada, com a imagem animada pelo VASA sincronizando os lábios com o áudio em tempo real.
O Teams já permite o uso de avatares em videoconferências, mas o novo modelo de IA poderia elevar essa funcionalidade a um novo patamar, permitindo a utilização de imagens reais nas representações. A Microsoft está trabalhando internamente para melhorar as representações de humanos do VASA, buscando reproduzir nuances de expressões faciais e movimentações corporais mais próximas da realidade.