Por Que ‘Inteligência Artificial Multimodal’ É o Mais Quente na Tecnologia Agora

OpenAI e Google apresentaram nesta semana sua mais recente e avançada tecnologia de IA. Nos últimos dois anos, as empresas de tecnologia têm corrido para tornar os modelos de IA mais inteligentes, mas agora surgiu um novo foco: torná-los multimodais. OpenAI e Google estão focando em IA que pode alternar perfeitamente entre sua boca, olhos e ouvidos robóticos.

“Multimodal” é a palavra da moda mais importante, já que as empresas de tecnologia estão apostando na forma mais atraente de seus modelos de IA no seu cotidiano. Os chatbots de IA perderam seu brilho desde o lançamento do ChatGPT em 2022. Por isso, as empresas estão esperando que falar e compartilhar visualmente coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal bem feita, parece que a ficção científica se tornou realidade.

Na segunda-feira, a OpenAI apresentou o GPT-4 Omni, que se assemelhava estranhamente ao filme distópico sobre a conexão humana perdida “Her”. Omni significa “omnicanal” e a OpenAI destacou a capacidade do modelo em processar vídeo junto com áudio. A demonstração mostrou o ChatGPT olhando para um problema de matemática através da câmera de um telefone, enquanto um membro da equipe da OpenAI pedia verbalmente para o chatbot explicar. A OpenAI diz que está sendo lançado agora para os usuários Premium.

No dia seguinte, o Google revelou o Projeto Astra, que promete fazer aproximadamente a mesma coisa. Florence Ion da Gizmodo usou a IA multimodal para identificar que flores falsas ela estava olhando, que foram corretamente identificadas como tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era muito mais robótica. Mais Siri do que “Her”, mas deixo a você decidir se isso é algo bom. O Google diz que isso está em estágios iniciais, no entanto, e até aponta alguns desafios atuais que a OpenAI superou.

“Embora tenhamos feito um progresso incrível no desenvolvimento de sistemas de IA que podem entender informações multimodais, reduzir o tempo de resposta para algo conversacional é um desafio de engenharia difícil”, afirmou o Google em um post de blog.

Agora, você pode se lembrar do vídeo de demonstração do Google Gemini de dezembro de 2023 que acabou sendo altamente manipulado. Seis meses depois, o Google ainda não está pronto para lançar o que mostrou naquele vídeo, mas a OpenAI está avançando rapidamente com o GPT-4o. A IA multimodal representa a próxima grande corrida no desenvolvimento de IA, e a OpenAI parece estar ganhando.

Um diferencial chave para o GPT-4o é que o único modelo de IA pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto para que o GPT-4 subjacente, que é baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google ainda pode estar usando vários modelos de IA para realizar essas tarefas, dado os tempos de resposta mais lentos.

Também vimos uma maior adoção de vestíveis de IA conforme as empresas de tecnologia abraçam a IA multimodal. O Humane AI Pin, Rabbit R1 e Meta Ray-Bans são todos exemplos de dispositivos habilitados para IA que utilizam esses vários meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que a Siri e o Google Assistant também sejam em breve potencializados com IA multimodal.

A IA multimodal é algo que provavelmente você ouvirá muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos podem tornar a IA significativamente mais útil. A tecnologia acaba tirando de você o peso de transcrever o mundo para um LLM e permite que a IA “veja” e “ouça” o mundo por si mesma.