OpenAI revela as capacidades de voz do GPT-4 Omni e elas são literalmente incríveis.

A OpenAI revelou o GPT-4 Omni (GPT-4o) durante sua atualização de primavera na segunda-feira de manhã em São Francisco. A Diretora de Tecnologia Mira Murati e a equipe da OpenAI apresentaram seu novo modelo principal, capaz de manter conversas verbais em tempo real com um chatbot de IA amigável que fala de forma convincente como um humano.

“GPT-4o fornece a inteligência do nível do GPT-4, mas é muito mais rápido”, disse Murati no palco. “Achamos que o GPT-4o está realmente mudando esse paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural e muito mais fácil”.

O GPT-4o responde instantaneamente a comandos verbais com uma voz amigável que soa incrivelmente como Scarlett Johansson, que dublou a assistente de IA no filme “Ela”. Com base nas demonstrações, essa tecnologia essencialmente torna esse filme uma realidade. A fala do GPT-4o tem uma entonação emocional, mostrando entusiasmo em alguns momentos e rindo em outros. Além disso, pode identificar a emoção e o tom na fala dos usuários também. A equipe da OpenAI mostrou conversas com os chatbots de IA com quase nenhum atraso, e o chatbot até foi capaz de mudar rapidamente quando interrompido.

Enquanto as habilidades de áudio do GPT-4o são impressionantes, o Omni funciona em várias mídias. Enquanto o ChatGPT processava anteriormente texto, visão e áudio por meio de uma rede de modelos de IA, o GPT-4o é um modelo único capaz de processar os três. Isso faz com que tudo funcione muito mais rápido. Você pode mostrar ao GPT-4o uma imagem de um problema de matemática com a câmera do seu telefone enquanto fala com o modelo verbalmente. A OpenAI diz que seu novo modelo principal opera em níveis de inteligência do GPT-4 enquanto estabelece marcas revolucionárias em capacidades multilíngues, de áudio e de visão.

Passando por esta demonstração impressionante, a OpenAI está lançando o GPT-4o como um aplicativo para desktop para macOS. Os usuários pagos também estão recebendo o aplicativo macOS hoje, mas o GPT-4o estará disponível para usuários gratuitos no futuro. O aplicativo de desktop permitirá que você inicie conversas por voz com o ChatGPT diretamente do seu computador e compartilhe sua tela com o mínimo de atrito. O site do ChatGPT também está recebendo uma atualização simplificada.

Os membros da equipe da OpenAI Mark Chen e Barret Zoph demonstraram como o modelo de IA multimodal em tempo real funciona no palco na segunda-feira. A conversa em tempo real funcionou muito bem, já que Chen e Zoph interromperam o modelo para pedir que ele mudasse as respostas. O GPT-4o contou histórias de ninar, ajudou com problemas matemáticos e muito mais. Em alguns momentos, o GPT-4 Omni teve dificuldade para entender a intenção dos usuários, mas o modelo foi bastante gracioso ao navegar pelas falhas.

O modelo de voz era capaz de fazer vozes diferentes ao contar uma história, rir e até mesmo dizer “Isso é tão gentil da sua parte” em um momento. Está claro que a equipe da OpenAI garantiu que o GPT-4o tivesse mais emoção e fosse mais conversacional do que os modelos de voz anteriores. Nas demonstrações, o ChatGPT soava mais humano do que nunca.

Um membro da equipe da OpenAI confirmou em um tweet que a empresa estava testando o GPT-4o na arena de chatbots da LMSYS Org como “im-also-a-good-gpt2-chatbot”. Como muitos suspeitavam e Sam Altman insinuou, esses eram modelos da OpenAI em desenvolvimento. De acordo com o funcionário, o último chatbot superou em muito a concorrência, incluindo líderes do setor como GPT-4 Turbo e Claude 3 Opus, em várias métricas.

O lançamento do GPT-4o parece ser um momento seminal para o futuro dos chatbots de IA. Essa tecnologia ultrapassa grande parte das latências desconfortáveis que prejudicaram os primeiros chatbots. É fácil imaginar uma versão da Siri que seja bastante útil com o GPT-4o. Essas capacidades em tempo real são provavelmente graças aos chips de inferência mais recentes da Nvidia, que Murati fez questão de destacar antes de encerrar a apresentação. Independentemente disso, a OpenAI reafirmou sua posição dominante como líder em inovação em IA com a demonstração de segunda-feira. Agora, esperamos para ver se a apresentação nos deu uma representação precisa do que essa coisa pode fazer, ou se foi cuidadosamente encenada para evitar falhas óbvias.