OpenAI Revela Capacidades de Voz do GPT-4 Omni e Elas São Literalmente Incríveis

A OpenAI revelou o GPT-4 Omni (GPT-4o) durante sua Atualização de Primavera na segunda-feira de manhã em San Francisco. A Diretora de Tecnologia Mira Murati e a equipe da OpenAI apresentaram seu novo modelo principal, capaz de manter conversas verbais em tempo real com um chatbot AI amigável que fala de forma convincente como um humano.

“O GPT-4o fornece inteligência de nível GPT-4, mas é muito mais rápido”, disse Murati no palco. “Achamos que o GPT-4o está realmente mudando o paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural e muito mais fácil.”

O GPT-4o responde instantaneamente aos comandos verbais em uma voz amigável que se assemelha de forma impressionante a Scarlett Johansson, que dublou a assistente de AI no filme “Ela”. Com base nas demonstrações, essa tecnologia basicamente torna aquele filme uma realidade. A fala do GPT-4o tem uma entonação emocional, mostrando empolgação em alguns momentos e rindo em outros. Além disso, ele pode identificar emoção e tom na fala dos usuários também. A equipe da OpenAI apresentou conversas com os chatbots de AI com quase nenhum atraso, e o chatbot até foi capaz de mudar rapidamente quando interrompido.

Enquanto as habilidades de áudio do GPT-4o são impressionantes, o Omni funciona em vários meios. Enquanto o ChatGPT processava anteriormente texto, visão e áudio através de uma rede de modelos de AI, o GPT-4o é um modelo único capaz de processar todos os três. Isso faz com que tudo funcione muito mais rápido. Você pode mostrar ao GPT-4o uma imagem de um problema de matemática com a câmera do seu telefone enquanto fala com o modelo verbalmente. A OpenAI diz que seu novo modelo principal opera em níveis de inteligência GPT-4 enquanto estabelece marcas inovadoras em capacidades multilíngues, de áudio e visão.

Além desta impressionante demonstração, a OpenAI está lançando o GPT-4o como um aplicativo para desktop para macOS. Os usuários pagos também estão recebendo o aplicativo macOS hoje, mas o GPT-4o estará disponível para usuários gratuitos no futuro. O aplicativo de desktop permitirá que você inicie conversas por voz com o ChatGPT diretamente do seu computador e compartilhe sua tela com o mínimo de atrito. O site do ChatGPT também está passando por uma atualização simplificada.

Os membros da equipe da OpenAI, Mark Chen e Barret Zoph, demonstraram como o modelo de AI multimodal em tempo real funciona no palco na segunda-feira. A conversa em tempo real funcionou muito bem, já que Chen e Zoph interromperam o modelo para pedir que ele mudasse as respostas. O GPT-4o contou histórias para dormir, ajudou com problemas de matemática e muito mais. Em alguns momentos, o GPT-4 Omni lutou para entender a intenção dos usuários, mas o modelo foi bastante habilidoso em navegar pelas falhas.

O modelo de voz era capaz de fazer vozes diferentes ao contar uma história, rir e até dizer “Isso é muito doce da sua parte” em um momento. Fica claro que a equipe da OpenAI se certificou de que o GPT-4o tivesse mais emoção e fosse mais conversacional do que os modelos de voz anteriores. Nas demonstrações, o ChatGPT soava mais humano do que nunca.

Um membro da equipe da OpenAI confirmou em um tweet que a empresa tem testado o GPT-4o na arena de chatbots LMSYS Org como “im-also-a-good-gpt2-chatbot”. Como muitos suspeitaram e Sam Altman sugeriu, esses eram modelos da OpenAI em desenvolvimento. De acordo com o funcionário, o chatbot mais recente superou drasticamente a concorrência, incluindo os líderes do setor GPT-4 Turbo e Claude 3 Opus, em várias métricas.

O lançamento do GPT-4o parece ser um momento seminal para o futuro dos chatbots de AI. Esta tecnologia supera grande parte das latências constrangedoras que assombravam os primeiros chatbots. É fácil imaginar uma versão de Siri que seja bastante útil com o GPT-4o. Essas capacidades em tempo real provavelmente são graças aos chips de inferência mais recentes da Nvidia, que Murati fez questão de destacar antes de encerrar a apresentação. Independentemente disso, a OpenAI reafirmou sua posição dominante como líder em inovação de AI com a demonstração de segunda-feira. Agora, esperamos para ver se a apresentação nos deu uma representação precisa do que este dispositivo pode fazer, ou se foi cuidadosamente encenada para evitar falhas óbvias.