Dentes Estranhos Revelam a Falsidade no Gerador de Vídeos AI mais Recente da Microsoft

Pesquisadores da Microsoft divulgaram um artigo nesta semana sobre o VASA-1, uma nova ferramenta de IA que pode gerar um vídeo convincente de alguém falando, usando apenas uma imagem estática. A Microsoft não tem planos imediatos de lançar a nova ferramenta para o público, mas é bastante impressionante. Bem, é impressionante se você não olhar muito para os dentes. Basta dar uma olhada nesses dentes.

O modelo VASA-1 funciona ao pegar qualquer foto estática de um rosto humano – ou, nos exemplos publicados pela Microsoft, um rosto gerado por IA de alguém que na realidade não existe – e, após receber um arquivo de áudio, pode produzir um vídeo sincronizado que inclui nuances faciais e movimentos naturais.

Novamente, é tudo bastante impressionante, como você pode ver em um dos vídeos fornecidos pela Microsoft abaixo. Mas a área em que o VASA-1 parece ter dificuldade é na renderização dos dentes. Se você focar nos dentes, pode perceber uma qualidade cartoon nos mesmos, parecendo ligeiramente animados de uma forma que não se encaixa na qualidade hiper-realista de tudo o mais.

Os dentes bizarros do vídeo ficam ainda mais evidentes quando você diminui a velocidade de todo o conteúdo, como o Gizmodo fez no GIF abaixo. (Quase pode fazer você se sentir mal por criticar a aparência de alguém até lembrar que a pessoa abaixo literalmente não existe.)

Outro vídeo exemplo fornecido pela Microsoft, que aparece abaixo, mostra qualidades semelhantes de desenho animado nos dentes – embora outras características pareçam muito realistas, especialmente quando você lembra que o único material de origem é uma imagem estática e um arquivo de áudio.

Uma das coisas mais interessantes notadas pelos pesquisadores é que seu modelo pode produzir vídeos de alta qualidade relativamente rápido, algo com o qual outros geradores de IA como o Sora da OpenAI, reportadamente tiveram dificuldade. Na verdade, o artigo menciona uma latência de apenas 0.17 segundos em um PC desktop com uma única GPU NVIDIA RTX 4090.

E essa velocidade é algo que pode proporcionar vídeos instantâneos para uma variedade de aplicações, como serviços de tradução em tempo real.

Os pesquisadores estão claramente cientes dos perigos dessa tecnologia, o que talvez explique por que a Microsoft ainda não anunciou planos de lançá-la logo para o público. No entanto, eles também identificaram casos de uso que acreditam ser úteis para a humanidade.

“Os benefícios – como aprimorar a equidade educacional, melhorar a acessibilidade para indivíduos com desafios de comunicação, oferecer companhia ou apoio terapêutico para aqueles que precisam, entre muitos outros – destacam a importância de nossa pesquisa e outras explorações relacionadas. Estamos dedicados a desenvolver a IA de forma responsável, com o objetivo de promover o bem-estar humano”, diz o artigo.

“Dado esse contexto, não temos planos para lançar um demo online, API, produto, detalhes adicionais de implantação, ou qualquer oferta relacionada até que estejamos certos de que a tecnologia será usada de maneira responsável e de acordo com as regulamentações adequadas.”

Isso provavelmente é uma boa ideia, dado o número de golpes possíveis com esse tipo de tecnologia. Afinal, a eleição presidencial de 2024 nos EUA está a apenas sete meses de distância. E a ameaça global do fascismo não está desaparecendo tão cedo. A humanidade realmente se sente impotente contra as falsificações geradas por IA agora. E grandes empresas como a Microsoft provavelmente devem fazer tudo em seu poder para limitar o dano potencial antes que virtualmente tudo na internet se torne falso.