Paulo Sobral
20 de maio de 2024
Inteligência Artificial

Dentes Estranhos Denunciam Falsificação no Mais Novo Gerador de Vídeos de IA da Microsoft

Pesquisadores da Microsoft divulgaram um artigo esta semana sobre VASA-1, uma nova ferramenta de IA que pode gerar um vídeo convincente de alguém falando, usando apenas uma imagem estática. A Microsoft não tem planos imediatos de lançar a nova ferramenta para o público, mas é bastante impressionante. Bem, é impressionante se você não olhar muito de perto para os dentes. Apenas dê uma olhada nesses dentes.

O modelo VASA-1 funciona pegando qualquer foto estática de um rosto humano — ou, nos exemplos publicados pela Microsoft, de um rosto gerado por IA de alguém que não existe de fato — e, após ser alimentado por um arquivo de áudio, pode produzir um vídeo sincronizado que inclui nuances faciais e movimentos naturais.

Novamente, é tudo muito impressionante, como você pode ver em um dos vídeos fornecidos pela Microsoft abaixo. Mas a área em que o VASA-1 parece ter dificuldade é na renderização dos dentes. Se você focar nos dentes, eles podem ter uma qualidade meio caricata, parecendo ligeiramente animados de uma forma que não se encaixa com a qualidade hiper-realista de tudo o mais.

Os dentes bizarros do vídeo ficam ainda mais aparentes quando você diminui a velocidade de todo o vídeo, como o Gizmodo fez no GIF abaixo. (Isso quase pode fazer você se sentir mal por analisar a aparência de alguém até você lembrar que a pessoa abaixo literalmente não existe.)

Outro vídeo de exemplo fornecido pela Microsoft, que aparece abaixo, mostra qualidades semelhantes de desenho animado nos dentes — mesmo que outras características pareçam muito realistas, especialmente quando você lembra que o único material de origem é uma imagem estática e um arquivo de áudio.

Uma das coisas mais interessantes observadas pelos pesquisadores é que seu modelo pode produzir vídeo de alta qualidade relativamente rápido, algo com que outros geradores de IA, como o Sora da OpenAI, segundo relatos, têm tido dificuldades. Na verdade, o artigo menciona uma latência de apenas 0,17 segundos em um PC desktop com uma única GPU NVIDIA RTX 4090.

E essa velocidade é algo que pode proporcionar vídeos instantâneos para uma variedade de aplicações, como serviços de tradução em tempo real.

Os pesquisadores estão claramente cientes dos perigos desse tipo de tecnologia, o que talvez explique por que a Microsoft ainda não anunciou planos para lançá-la ao público. No entanto, os pesquisadores também identificaram casos de uso que acreditam ser úteis para a humanidade.

“Os benefícios — como aprimorar a equidade educacional, melhorar a acessibilidade para pessoas com desafios de comunicação, oferecer companhia ou apoio terapêutico a quem precisa, entre muitos outros — destacam a importância de nossa pesquisa e de outras explorações relacionadas. Estamos dedicados a desenvolver a IA de forma responsável, com o objetivo de promover o bem-estar humano”, diz o artigo.

“Dado esse contexto, não temos planos de lançar um demo online, API, produto, detalhes adicionais de implementação ou quaisquer ofertas relacionadas até termos certeza de que a tecnologia será utilizada de forma responsável e em conformidade com regulamentações adequadas.”

Isso provavelmente é uma boa ideia, dado o número de golpes que são possíveis com esse tipo de tecnologia. Afinal, a eleição presidencial de 2024 nos EUA está a apenas sete meses de distância. E a ameaça do fascismo global não está desaparecendo tão cedo. A humanidade realmente se sente impotente contra as falsificações geradas por IA no momento. E grandes empresas como a Microsoft provavelmente deveriam fazer todo o possível para limitar o dano potencial antes que praticamente tudo na internet se torne falsificação.

Paulo Sobral

Especialista em segurança digital, ajudo você a se proteger contra hackers, malwares e outras ameaças virtuais. Compartilho notícias, dicas e as melhores práticas para manter seus dados seguros e sua vida online protegida.