A Microsoft lançou recentemente o VASA-1, uma nova ferramenta de inteligência artificial que pode transformar imagens estáticas em vídeos curtos. Utilizando a tecnologia deepfake, o modelo consegue sincronizar os lábios com um áudio e reproduzir expressões faciais realistas até mesmo na plataforma Teams.
Além de imagens de pessoas reais, essa IA é capaz de gerar vídeos de representações artísticas. Um exemplo disso foi a animação da Mona Lisa, de Leonardo da Vinci, cantando rap, que fez muito sucesso nas redes sociais.
A empresa não planeja disponibilizar publicamente essa ferramenta devido ao possível impacto negativo em sua utilização inadequada na sociedade. No entanto, a Microsoft pretende incorporar a tecnologia em seus serviços, com o Microsoft Teams sendo um dos possíveis alvos. Isso permitiria aos usuários fazer videochamadas com a câmera desligada, enquanto o VASA anima a imagem de perfil, sincronizando os lábios com o áudio em tempo real.
Uma das preocupações atuais da Microsoft é melhorar as representações de humanos no VASA, tornando-as mais precisas em expressões faciais e movimentos corporais. A ideia é levar essa funcionalidade a um novo nível, possibilitando o uso de imagens reais de pessoas nas representações de avatar em videoconferências.