Por Que a IA ‘Multimodal’ Está Dominando a Indústria de Tecnologia

OpenAI e Google mostraram sua mais recente e avançada tecnologia de IA esta semana. Nos últimos dois anos, as empresas de tecnologia competiram para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão focando em uma IA que pode alternar facilmente entre sua boca, olhos e ouvidos robóticos.

“Multimodal” é a palavra da moda enquanto as empresas de tecnologia apostam na forma mais atraente de seus modelos de IA no seu dia a dia. Os chatbots de IA perderam seu brilho desde o lançamento do ChatGPT em 2022. Então, as empresas esperam que falar e compartilhar visualmente coisas com uma assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal bem feita, parece que a ficção científica se tornou realidade.

Na segunda-feira, a OpenAI apresentou o GPT-4 Omni, que lembrava estranhamente o filme distópico sobre a perda da conexão humana “Her”. Omni significa “omnicanal”, e a OpenAI destacou a capacidade do modelo de processar vídeo junto com áudio. A demonstração mostrou o ChatGPT resolvendo um problema de matemática através da câmera do celular, enquanto um funcionário da OpenAI pedia verbalmente ao chatbot para orientá-lo. A OpenAI diz que está lançando agora para usuários Premium.

No dia seguinte, o Google revelou o Projeto Astra, que prometia fazer praticamente a mesma coisa. Florence Ion, da Gizmodo, usou a IA multimodal para identificar quais flores artificiais ela estava olhando, e acertou que eram tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era bem mais robótica. Mais Siri do que “Her”, mas vou deixar você decidir se isso é bom. O Google diz que isso está em estágios iniciais, no entanto, e destaca alguns desafios atuais que a OpenAI superou.

“Embora tenhamos feito avanços incríveis no desenvolvimento de sistemas de IA que podem entender informações multimodais, reduzir o tempo de resposta para algo conversacional é um desafio de engenharia difícil”, disse o Google em um post de blog.

Outro fator diferencial para o GPT-4o é que o único modelo de IA pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto, para que o GPT-4 subjacente, baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google ainda pode estar usando vários modelos de IA para executar essas tarefas, dada a lentidão das respostas.

Também vimos uma adoção mais ampla de dispositivos vestíveis de IA à medida que as empresas de tecnologia adotam a IA multimodal. O Pin de IA Humano, o Rabbit R1 e os Óculos Inteligentes Meta são exemplos de dispositivos habilitados para IA que utilizam esses diversos meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que a Siri e o Google Assistant também sejam em breve habilitados com IA multimodal.

A IA multimodal provavelmente é algo que você ouvirá muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos poderiam tornar a IA significativamente mais útil. A tecnologia acaba tirando de você o peso de transcrever o mundo para um IA e permite que a IA “veja” e “ouça” o mundo por si mesma.