Por que a IA Multimodal é a Tendência mais Quente na Tecnologia Atualmente

OpenAI e Google mostraram sua mais recente e avançada tecnologia de IA nesta semana. Nos últimos dois anos, empresas de tecnologia têm corrido para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão se concentrando em uma IA que pode alternar perfeitamente entre sua boca robótica, olhos e ouvidos.

“Multimodal” é a palavra da moda, enquanto empresas de tecnologia apostam na forma mais atraente de seus modelos de IA no seu dia a dia. Os chatbots de IA perderam seu brilho desde o lançamento do ChatGPT em 2022. Então as empresas esperam que falar e compartilhar visualmente coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal bem feita, parece que a ficção científica ganhou vida.

Na segunda-feira, OpenAI mostrou o GPT-4 Omni, que lembrava estranhamente o filme distópico sobre a perda de conexão humana “Her”. Omni significa “omnicanal”, e a OpenAI destacou a capacidade do modelo de processar vídeo junto com áudio. A demonstração mostrou o ChatGPT olhando para um problema de matemática através da câmera de um celular, enquanto um membro da equipe da OpenAI pedia verbalmente para o chatbot explicar. A OpenAI diz que está sendo lançado agora para usuários premium.

No dia seguinte, o Google revelou o Projeto Astra, que prometia fazer mais ou menos a mesma coisa. Florence Ion, da Gizmodo, usou IA multimodal para identificar quais flores feitas de falso ela estava olhando, e foi corretamente identificada como tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era muito mais robótica. Mais Siri do que “Her”, mas deixo para você decidir se isso é algo bom. O Google diz que isso está em estágios iniciais e até destaca alguns desafios atuais que a OpenAI superou.

“Embora tenhamos feito progressos incríveis no desenvolvimento de sistemas de IA que possam entender informações multimodais, reduzir o tempo de resposta para algo conversacional é um desafio de engenharia difícil”, disse o Google em um post no blog.

A IA multimodal provavelmente é algo que você ouvirá muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos podem tornar a IA significativamente mais útil. A tecnologia acaba retirando de você o peso de transcrever o mundo para um LLM e permite que a IA “veja” e “ouça” o mundo por si mesma.