Por Que ‘Inteligência Artificial Multimodal’ Está Bombando na Tecnologia Agora

OpenAI e Google apresentaram esta semana suas mais recentes tecnologias de IA. Nos últimos dois anos, as empresas de tecnologia têm corrido para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão focando em uma IA que pode alternar perfeitamente entre sua boca, olhos e ouvidos robóticos.

“Multimodal” é a maior palavra da moda, já que as empresas de tecnologia fazem apostas na forma mais atraente de seus modelos de IA em sua vida cotidiana. Os chatbots de IA perderam o brilho desde o lançamento do ChatGPT em 2022. Por isso, as empresas estão esperando que falar e compartilhar visualmente coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal bem feita, parece que a ficção científica ganhou vida.

Na segunda-feira, a OpenAI apresentou o GPT-4 Omni, que lembrava estranhamente o filme distópico sobre a conexão humana perdida “Her”. Omni significa “omnicanal”, e a OpenAI promoveu a capacidade do modelo de processar vídeo junto com áudio. A demonstração mostrou o ChatGPT olhando para um problema matemático através da câmera do telefone, enquanto um membro da equipe da OpenAI pedia verbalmente ao chatbot para orientá-los. A OpenAI diz que está sendo lançado agora para usuários Premium.

No dia seguinte, o Google apresentou o Projeto Astra, que prometia fazer praticamente a mesma coisa. A jornalista da Gizmodo, Florence Ion, usou a IA multimodal para identificar que flores falsas ela estava olhando, as quais foram corretamente identificadas como tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era muito mais robótica. Mais Siri do que “Her”, mas deixo você decidir se isso é algo bom. O Google diz que isso está em estágios iniciais, no entanto, e reconhece alguns desafios atuais que a OpenAI superou.

“Embora tenhamos feito progressos incríveis no desenvolvimento de sistemas de IA que podem entender informações multimodais, reduzir o tempo de resposta para algo conversacional é um desafio de engenharia difícil”, disse o Google em um post de blog.

Agora você pode se lembrar do vídeo de demonstração do Google Gemini de dezembro de 2023, que acabou sendo altamente manipulado. Seis meses depois, o Google ainda não está pronto para lançar o que mostrou naquele vídeo, mas a OpenAI está acelerando com o GPT-4o. A IA multimodal representa a próxima grande corrida no desenvolvimento de IA, e a OpenAI parece estar ganhando.

Um fator diferencial fundamental para o GPT-4o é que o único modelo de IA pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto para que o GPT-4 subjacente, que é baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google ainda pode estar usando múltiplos modelos de IA para realizar essas tarefas, dadas as respostas mais lentas.

Também vimos uma adoção mais ampla de wearables de IA, à medida que as empresas de tecnologia adotam a IA multimodal. O Humane AI Pin, Rabbit R1 e Meta Ray-Bans são exemplos de dispositivos habilitados para IA que utilizam esses diversos meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que Siri e Google Assistant também sejam em breve capacitados com IA multimodal.

A IA multimodal é algo que provavelmente ouviremos muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos poderiam tornar a IA significativamente mais útil. A tecnologia acaba retirando o peso de você transcrever o mundo para um LLM e permite que a IA “veja” e “ouça” o mundo por si mesma.