Dentes Estranhos Revelam a Falsificação no Gerador de Vídeo de IA Mais Recentes da Microsoft

Pesquisadores da Microsoft lançaram um artigo esta semana sobre o VASA-1, uma nova ferramenta de inteligência artificial que pode gerar um vídeo convincente de alguém falando, usando apenas uma imagem estática. A Microsoft não tem planos imediatos de lançar a nova ferramenta para o público, mas é bastante impressionante. Bem, é impressionante se você não examinar muito de perto os dentes. Apenas dê uma olhada nesses dentes.

O modelo VASA-1 funciona ao pegar qualquer foto estática de um rosto humano – ou, nos exemplos publicados pela Microsoft, um rosto gerado por inteligência artificial de alguém que na verdade não existe – e, depois de receber um arquivo de áudio, consegue produzir um vídeo sincronizado que inclui nuances faciais e movimentos naturais.

Novamente, é tudo bastante impressionante, como você pode ver em um dos vídeos fornecidos pela Microsoft abaixo. Mas a área em que o VASA-1 parece lutar é a renderização dos dentes. Se você se concentrar nos dentes, eles podem adquirir uma qualidade caricata, parecendo ligeiramente animados de uma maneira que não se encaixa totalmente com a qualidade hiper-realista de tudo o mais.

Os dentes bizarros do vídeo ficam ainda mais aparentes quando você reduz a velocidade de toda a coisa, como o Gizmodo fez no GIF abaixo. (Isso pode quase fazer você se sentir mal por criticar a aparência de alguém até lembrar que a pessoa abaixo literalmente não existe.)

Outro exemplo de vídeo fornecido pela Microsoft, que aparece abaixo, mostra qualidades semelhantes de desenho animado nos dentes – mesmo que outros recursos pareçam muito realistas, especialmente quando você lembra que o único material de origem é uma imagem estática e um arquivo de áudio.

Uma das coisas mais interessantes observadas pelos pesquisadores é que seu modelo pode produzir vídeos de alta qualidade relativamente rápido, algo com que outros geradores de AI como o Sora da OpenAI, aparentemente têm lutado. De fato, o artigo menciona uma latência de apenas 0,17 segundos em um PC desktop com uma única GPU NVIDIA RTX 4090.

E essa velocidade é algo que pode fornecer vídeos instantâneos para uma variedade de aplicações, como serviços de tradução em tempo real.

“Nosso método não apenas oferece alta qualidade de vídeo com dinâmica facial e de cabeça realistas, mas também suporta a geração online de vídeos 512×512 a até 40 FPS com uma latência de início negligenciável. A preparação para interações em tempo real com avatares realistas que imitam comportamentos conversacionais humanos,” diz o novo artigo.

Os pesquisadores estão claramente cientes dos perigos nesse tipo de tecnologia, o que talvez explique por que a Microsoft ainda não anunciou planos para lançá-la ao público. No entanto, os pesquisadores também identificaram casos de uso que acreditam ser úteis para a humanidade.

“Os benefícios – como melhorar a equidade educacional, melhorar a acessibilidade para pessoas com desafios de comunicação, oferecer companhia ou apoio terapêutico para aqueles que precisam, entre muitos outros – destacam a importância de nossa pesquisa e outras explorações relacionadas. Estamos dedicados a desenvolver a Inteligência Artificial de forma responsável, com o objetivo de promover o bem-estar humano,” diz o artigo.

“Dado esse contexto, não temos planos de lançar um demo online, API, produto, detalhes de implementação adicionais ou ofertas relacionadas até termos certeza de que a tecnologia será usada de forma responsável e de acordo com as regulamentações apropriadas.”

Isso provavelmente é uma boa ideia, dada a quantidade de golpes possíveis com esse tipo de tecnologia. Afinal, as eleições presidenciais de 2024 nos EUA estão a apenas sete meses de distância. E a ameaça do fascismo global não está desaparecendo tão cedo. A humanidade realmente se sente impotente contra as falsificações geradas por AI neste momento. E grandes empresas como a Microsoft provavelmente devem fazer tudo o que estiver ao seu alcance para limitar o potencial de danos antes que virtualmente tudo na internet se torne uma falsificação.