OpenAI Revela as Capacidades de Voz do GPT-4 Omni e Elas São Literalmente Incríveis

A OpenAI apresentou o GPT-4 Omni (GPT-4o) durante sua Atualização de Primavera na manhã de segunda-feira em São Francisco. A Diretora de Tecnologia, Mira Murati, e a equipe da OpenAI apresentaram seu novo modelo principal capaz de conversas verbais em tempo real com um chatbot de IA amigável que fala de forma convincente como um humano.

“GPT-4o fornece inteligência de nível GPT-4, mas é muito mais rápido”, disse Murati no palco. “Acreditamos que o GPT-4o está realmente mudando o paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural e mais fácil.”

O GPT-4o responde instantaneamente a comandos verbais com uma voz amigável, semelhante à de Scarlett Johansson, que dublou a assistente de IA no filme “Ela”. Com base nas demonstrações, essa tecnologia essencialmente torna aquele filme uma realidade. A fala do GPT-4o tem uma entonação emocional, mostrando entusiasmo em alguns momentos e rindo em outros. Além disso, pode identificar emoção e tom na fala dos usuários. A equipe da OpenAI demonstrou conversas com os chatbots de IA com quase nenhum atraso, e o chatbot foi capaz até de se adaptar rapidamente quando interrompido.

Enquanto as habilidades de áudio do GPT-4o são impressionantes, o Omni funciona em várias mídias. Enquanto o ChatGPT processava anteriormente texto, visão e áudio por meio de uma rede de modelos de IA, o GPT-4o é um único modelo capaz de processar os três. Isso torna tudo muito mais rápido. Você pode mostrar ao GPT-4o uma imagem de um problema matemático com a câmera do seu celular enquanto fala com o modelo verbalmente. A OpenAI afirma que seu novo modelo principal opera em níveis de inteligência do GPT-4, estabelecendo novos padrões revolucionários em capacidades multilíngues, de áudio e visão.

Após essa demonstração impressionante, a OpenAI está lançando o GPT-4o como um aplicativo para desktop para macOS. Os usuários pagos também estão recebendo o aplicativo macOS hoje, mas o GPT-4o estará disponível para usuários gratuitos no futuro. O aplicativo para desktop permitirá que você inicie conversas por voz com o ChatGPT diretamente do seu computador e compartilhe sua tela com o mínimo de atrito. O site do ChatGPT também está passando por uma atualização simplificada.

Os membros da equipe da OpenAI Mark Chen e Barret Zoph demonstraram como o modelo de IA multimodal em tempo real funcionava no palco na segunda-feira. A conversa em tempo real funcionou muito bem, com Chen e Zoph interrompendo o modelo para pedir respostas. O GPT-4o contou histórias para dormir, ajudou com problemas matemáticos e muito mais. Em alguns momentos, o GPT-4 Omni teve dificuldades em entender a intenção dos usuários, mas o modelo foi bastante gracioso ao lidar com as falhas.

O modelo de voz era capaz de fazer vozes diferentes ao contar uma história, rir e até mesmo dizer “Que fofo” em um ponto. Fica claro que a equipe da OpenAI garantiu que o GPT-4o tivesse mais emoção e fosse mais conversacional do que os modelos de voz anteriores. Nas demonstrações, o ChatGPT soou mais humano do que nunca. Um membro da equipe da OpenAI confirmou em um tweet que a empresa tem testado o GPT-4o na arena de chatbot da LMSYS Org como “im-also-a-good-gpt2-chatbot”. Conforme muitos suspeitavam e Sam Altman insinuava, esses eram modelos da OpenAI em desenvolvimento. De acordo com o funcionário, o último chatbot superou claramente a concorrência, incluindo os líderes do setor GPT-4 Turbo e Claude 3 Opus, em vários aspectos.

O lançamento do GPT-4o parece ser um momento fundamental para o futuro dos chatbots de IA. Essa tecnologia supera grande parte das latências constrangedoras que assolavam os primeiros chatbots. É fácil imaginar uma versão da Siri que seja bastante útil com o GPT-4o. Essas capacidades em tempo real provavelmente são graças aos últimos chips de inferência da Nvidia, que Murati fez questão de mencionar antes de encerrar a apresentação. Independentemente disso, a OpenAI reafirmou sua posição dominante como líder em inovação em IA com a demonstração de segunda-feira. Agora, teremos que ver se a apresentação nos deu uma representação precisa do que essa coisa pode fazer, ou se foi cuidadosamente manipulada para evitar falhas óbvias.