IA ‘Multimodal’ Está Tomando Conta da Indústria de Tecnologia. Aqui Está o Porquê

OpenAI e Google apresentaram sua mais recente e avançada tecnologia de IA esta semana. Nos últimos dois anos, empresas de tecnologia têm corrido para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão concentrando seus esforços em IA que pode alternar perfeitamente entre sua boca robótica, olhos e ouvidos.

“Multimodal” é a palavra da moda enquanto empresas de tecnologia apostam na forma mais atraente de seus modelos de IA no seu dia a dia. Os chatbots de IA perderam seu brilho desde o lançamento do ChatGPT em 2022. Portanto, as empresas estão esperando que conversar e compartilhar visualmente coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê a IA multimodal sendo bem feita, parece como se a ficção científica ganhasse vida.

Na segunda-feira, a OpenAI mostrou o GPT-4 Omni, que lembrava estranhamente o filme distópico sobre conexão humana perdida “Her”. Omni significa “omnicanal”, e a OpenAI divulgou a capacidade do modelo de processar vídeo junto com áudio. A demonstração mostrou o ChatGPT olhando para um problema matemático através da câmera do celular, enquanto um membro da equipe da OpenAI pedia verbalmente ao chatbot que os conduzisse. A OpenAI diz que está disponibilizando agora para usuários Premium.

No dia seguinte, o Google anunciou o Projeto Astra, que prometia fazer basicamente a mesma coisa. Florence Ion, do Gizmodo, usou a IA multimodal para identificar que flores artificiais estava olhando, e identificou corretamente como tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era bem mais robótica. Mais Siri do que “Her”, mas vou deixar você decidir se isso é uma coisa boa. O Google diz que isso está em estágios iniciais, entretanto, e até reconhece alguns desafios atuais que a OpenAI superou.

“Enquanto fizemos um progresso incrível no desenvolvimento de sistemas de IA que podem entender informações multimodais, diminuir o tempo de resposta para algo conversacional é um desafio de engenharia difícil”, disse o Google em um post de blog.

Você talvez se lembre do vídeo de demonstração do Google’s Gemini de dezembro de 2023 que acabou sendo altamente manipulado. Seis meses depois, o Google ainda não está pronto para lançar o que mostrou naquele vídeo, mas a OpenAI está avançando com o GPT-4o. A IA multimodal representa a próxima grande corrida no desenvolvimento de IA, e a OpenAI parece estar vencendo.

Um diferencial chave para o GPT-4o é que o único modelo de IA pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto para que o GPT-4, baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google ainda pode estar usando vários modelos de IA para realizar essas tarefas, dado os tempos de resposta mais lentos.

Também vimos uma adoção mais ampla de dispositivos vestíveis de IA conforme empresas de tecnologia abraçam a IA multimodal. O Pin da Humane AI, Rabbit R1 e os Ray-Bans Meta são exemplos de dispositivos habilitados para IA que utilizam esses diversos meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que Siri e Google Assistant também sejam em breve capacitados com IA multimodal.

A IA multimodal é provavelmente algo que você ouvirá muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos poderiam tornar a IA significativamente mais útil. A tecnologia acaba aliviando você de transcrever o mundo para um LLM e permite que a IA “veja” e “ouça” o mundo por si mesma.