Por Que ‘Inteligência Artificial Multimodal’ É a Coisa Mais Quente na Tecnologia Agora

Essa semana, OpenAI e Google mostraram sua mais recente e avançada tecnologia de IA. Nos últimos dois anos, as empresas de tecnologia têm corrido para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão se concentrando em uma IA que pode alternar perfeitamente entre sua boca robótica, olhos e ouvidos.

“Multimodal” é a palavra da moda enquanto as empresas de tecnologia fazem apostas na forma mais atraente de seus modelos de IA no seu dia a dia. Os chatbots de IA perderam seu brilho desde o lançamento do ChatGPT em 2022. Portanto, as empresas estão esperando que conversar e compartilhar visualmente coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal funcionando bem, parece que a ficção científica se tornou realidade.

Na segunda-feira, a OpenAI mostrou o GPT-4 Omni, que era estranhamente reminiscente do filme distópico sobre a perda de conexão humana “Her”. Omni significa “omnicanal”, e a OpenAI promoveu a capacidade do modelo de processar vídeos juntamente com o áudio. A demonstração mostrou o ChatGPT olhando para um problema de matemática através da câmera do telefone, enquanto um membro da equipe da OpenAI pedia verbalmente ao chatbot para explicar. A OpenAI diz que está lançando agora para usuários Premium.

No dia seguinte, o Google revelou o Project Astra, que prometeu fazer mais ou menos a mesma coisa. Florence Ion, do Gizmodo, usou a IA multimodal para identificar que flores falsas ela estava olhando, e conseguiu identificar corretamente como tulipas. No entanto, o Project Astra parecia um pouco mais lento que o GPT-4o, e a voz era bem mais robótica. Mais Siri do que “Her”, mas deixo para você decidir se isso é uma coisa boa. O Google diz que isso está em estágios iniciais, no entanto, e destaca alguns desafios atuais que a OpenAI superou.

“Agora você pode se lembrar do vídeo demo do Google Gemini de dezembro de 2023 que se revelou altamente manipulado. Seis meses depois, o Google ainda não está pronto para lançar o que mostrou naquele vídeo, mas a OpenAI está acelerando com o GPT-4o. A IA multimodal representa a próxima grande corrida no desenvolvimento de IA, e a OpenAI parece estar ganhando.

Um diferencial fundamental do GPT-4o é que o único modelo de IA pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto para que o GPT-4 subseqüente, baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google ainda pode estar usando vários modelos de IA para realizar essas tarefas, dada a maior lentidão de resposta.

Também vimos uma maior adoção de wearables de IA à medida que as empresas de tecnologia abraçam a IA multimodal. O Humane AI Pin, Rabbit R1 e Meta Ray-Bans são exemplos de dispositivos habilitados para IA que utilizam esses vários meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que a Siri e o Google Assistant em breve também sejam potencializados com IA multimodal.

A IA multimodal é algo que provavelmente ouviremos muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos poderiam tornar a IA significativamente mais útil. A tecnologia acaba tirando de você o peso de transcrever o mundo para um LLM e permite que a IA “veja” e “ouça” o mundo por si mesma.