IA Multimodal Está Dominando a Indústria de Tecnologia. Aqui Está o Motivo

A OpenAI e o Google apresentaram sua mais recente e avançada tecnologia de IA nesta semana. Nos últimos dois anos, empresas de tecnologia competiram para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão se concentrando em uma IA que pode alternar perfeitamente entre sua boca robótica, olhos e ouvidos.

“Multimodal” é a palavra da moda mais importante, à medida que as empresas de tecnologia fazem apostas na forma mais atraente de seus modelos de IA em sua vida cotidiana. Os chatbots de IA perderam seu brilho desde o lançamento do ChatGPT em 2022. Então, as empresas esperam que conversar e compartilhar visualmente coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal sendo bem feita, parece que a ficção científica se tornou realidade.

Na segunda-feira, a OpenAI apresentou o GPT-4 Omni, que lembrava estranhamente o filme distópico sobre a conexão humana perdida “Her”. Omni significa “omnicanal”, e a OpenAI destacou a capacidade do modelo de processar vídeo junto com áudio. A demonstração mostrou o ChatGPT olhando para um problema matemático através da câmera de um celular, enquanto um funcionário da OpenAI pedia verbalmente ao chatbot para explicá-lo. A OpenAI diz que está sendo lançado agora para usuários Premium.

No dia seguinte, o Google lançou o Projeto Astra, que promete fazer mais ou menos a mesma coisa. A Florence Ion do Gizmodo usou a IA multimodal para identificar que flores falsas ela estava olhando, o que identificou corretamente como tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era bem mais robótica. Mais Siri do que “Her”, mas deixo você decidir se isso é algo bom. O Google diz que isso está em estágios iniciais, no entanto, e nota alguns desafios atuais que a OpenAI superou.

“Embora tenhamos feito progressos incríveis no desenvolvimento de sistemas de IA que podem entender informações multimodais, reduzir o tempo de resposta para algo conversacional é um desafio de engenharia complicado”, disse o Google em um post de blog.

Agora você pode se lembrar do vídeo de demonstração do Google Gemini de dez. 2023 que acabou sendo altamente manipulado. Seis meses depois, o Google ainda não está pronto para lançar o que mostrou naquele vídeo, mas a OpenAI está avançando rapidamente com o GPT-4o. A IA multimodal representa a próxima grande corrida no desenvolvimento de IA, e a OpenAI parece estar ganhando.

Um diferencial importante para o GPT-4o é que o modelo de IA único pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto para que o GPT-4 subjacente, que é baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google pode ainda estar usando vários modelos de IA para realizar essas tarefas, dadas as respostas mais lentas.

Também vimos uma adoção mais ampla de vestíveis de IA, à medida que empresas de tecnologia abraçam a IA multimodal. O Humane AI Pin, Rabbit R1 e os Meta Ray-Bans são todos exemplos de dispositivos habilitados para IA que utilizam esses vários meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que Siri e o Google Assistente também sejam em breve capacitados com IA multimodal.

A IA multimodal é algo que você provavelmente ouvirá muito nos próximos meses e anos. Seu desenvolvimento e integração em produtos poderiam tornar a IA significativamente mais útil. A tecnologia finalmente tira de você o peso de transcrever o mundo para um LLM e permite que a IA “veja” e “ouça” o mundo por si mesma.