Por Que ‘Multimodal AI’ É a Mais Quente Novidade na Tecnologia Agora

OpenAI e Google mostraram esta semana suas últimas e melhores tecnologias de IA. Nos últimos dois anos, empresas de tecnologia têm corrido para tornar os modelos de IA mais inteligentes, mas agora um novo foco surgiu: torná-los multimodais. OpenAI e Google estão se concentrando em IA que pode alternar perfeitamente entre sua boca robótica, olhos e ouvidos.

“Multimodal” é a maior palavra da moda à medida que as empresas de tecnologia fazem apostas na forma mais atraente de seus modelos de IA em sua vida cotidiana. Os chatbots de IA perderam o brilho desde o lançamento do ChatGPT em 2022. Portanto, as empresas esperam que conversar e compartilhar visualmente as coisas com um assistente de IA pareça mais natural do que digitar. Quando você vê uma IA multimodal bem feita, parece como ficção científica ganhando vida.

Na segunda-feira, a OpenAI mostrou o GPT-4 Omni, que lembrava de forma estranha o filme distópico sobre a conexão humana perdida “Her”. Omni significa “omnicanal” e a OpenAI destacou a capacidade do modelo de processar vídeo junto com áudio. A demonstração mostrou o ChatGPT olhando para um problema de matemática através da câmera do telefone, enquanto um membro da equipe da OpenAI pedia verbalmente ao chatbot para guiá-los. A OpenAI diz que está sendo lançado agora para usuários Premium.

No dia seguinte, o Google lançou o Projeto Astra, que prometia fazer algo semelhante. Florence Ion, do Gizmodo, usou a IA multimodal para identificar quais flores falsas ela estava olhando, que foram corretamente identificadas como tulipas. No entanto, o Projeto Astra parecia um pouco mais lento que o GPT-4o, e a voz era muito mais robótica. Mais Siri do que “Her”, mas deixo a você decidir se isso é bom. O Google diz que isso está em estágios iniciais, no entanto, e até menciona alguns desafios atuais que a OpenAI superou.

“Agora, pode se lembrar do vídeo demo do Google Gemini de dez. de 2023 que acabou sendo altamente manipulado. Seis meses depois, o Google ainda não está pronto para lançar o que mostrou naquele vídeo, mas a OpenAI está avançando rapidamente com o GPT-4o. A IA multimodal representa a próxima grande corrida no desenvolvimento de IA, e a OpenAI parece estar vencendo.

Um diferencial importante para o GPT-4o é que o único modelo de IA pode processar nativamente áudio, vídeo e texto. Anteriormente, a OpenAI precisava de modelos de IA separados para traduzir fala e vídeo em texto para que o GPT-4 subjacente, que é baseado em linguagem, pudesse entender esses diferentes meios. Parece que o Google ainda pode estar usando vários modelos de IA para realizar essas tarefas, dadas as respostas mais lentas.

Também vimos uma adoção mais ampla de dispositivos vestíveis de IA, à medida que as empresas de tecnologia abraçam a IA multimodal. O Humane AI Pin, o Rabbit R1 e os Meta Ray-Bans são todos exemplos de dispositivos habilitados para IA que utilizam esses vários meios. Esses dispositivos prometem nos tornar menos dependentes de smartphones, embora seja possível que a Siri e o Google Assistant também sejam capacitados com IA multimodal em breve.

A IA multimodal provavelmente é algo que ouviremos muito mais nos próximos meses e anos. Seu desenvolvimento e integração em produtos podem tornar a IA significativamente mais útil. A tecnologia, no final, tira de você o peso de transcrever o mundo para um LLM e permite à IA “ver” e “ouvir” o mundo por si mesma.