Desde que a OpenAI apresentou o Sora, um novo modelo gerador de vídeos com base em comandos de texto, tem chamado a atenção por seus resultados ultrarrealistas. Vários vídeos circularam nas redes sociais para mostrar o poder da ferramenta, que parece mais avançada do que outros geradores de vídeo populares.
Uma possível aplicação que está sendo considerada e pode ser amplamente explorada no futuro é no setor audiovisual, na criação de efeitos, cenários ou ambientes mais realistas em filmes ou séries. No entanto, existe o receio de que essa tecnologia possa impactar negativamente empregos em algumas áreas profissionais do segmento.
Yann LeCun, cientista-chefe de IA da Meta, não demonstra muito entusiasmo com o Sora. Para ele, a tentativa de simular fielmente elementos do mundo real é mais complexa do que simplesmente compreender e gerar texto, e está fadada ao fracasso.
O cientista destaca que chatbots de texto têm sido bem-sucedidos até agora porque a linguagem escrita possui uma quantidade limitada de símbolos e sinais a serem processados. Já a geração de vídeos lida com um número muito maior de variáveis imprevisíveis.
Apesar de não ter a mesma repercussão dos lançamentos da OpenAI, LeCun continua avançando com a equipe de IA da Meta. Recentemente, a empresa revelou o modelo V-JEPA (Video Joint Embedding Predictive Architecture), capaz de aprender assistindo vídeos.
A proposta da Meta era desenvolver um novo modelo capaz de aprender e evoluir como os humanos. Internamente, existe bastante otimismo em relação a essa ferramenta, considerada um passo fundamental no desenvolvimento da inteligência artificial geral – que seria capaz de superar a inteligência humana.
LeCun acredita fortemente que a limitação de modelos de empresas concorrentes em aprender por meio de imagens e sons está restringindo significativamente o potencial de evolução da IA. E, neste momento, a Meta pode ter superado essa barreira.