OpenAI Revela Capacidades de Voz de GPT-4 Omni e Elas são Literalmente Inacreditáveis

A OpenAI apresentou o GPT-4 Omni (GPT-4o) durante sua atualização de primavera na manhã de segunda-feira em São Francisco. A Chief Technology Officer Mira Murati e a equipe da OpenAI apresentaram seu mais novo modelo principal, capaz de conversas verbais em tempo real com um simpático chatbot de IA que fala de forma convincente como um humano.

“GPT-4o oferece inteligência de nível GPT-4, mas é muito mais rápido”, disse Murati no palco. “Achamos que o GPT-4o está realmente mudando esse paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural e muito mais fácil”.

O GPT-4o responde instantaneamente a comandos verbais com uma voz amigável que soa de forma impressionante como a de Scarlett Johansson, que dublou a assistente de IA no filme ‘Her’. Com base nas demonstrações, essa tecnologia basicamente torna esse filme uma realidade. A fala do GPT-4o possui uma entonação emocional, mostrando entusiasmo em alguns momentos e rindo em outros. Além disso, ele pode identificar emoção e tom na fala dos usuários também. A equipe da OpenAI demonstrou conversas com os chatbots de IA com quase nenhum atraso, e o chatbot foi capaz até de se adaptar rapidamente quando interrompido.

Enquanto as habilidades de áudio do GPT-4o são impressionantes, o Omni funciona em vários meios. Enquanto o ChatGPT anteriormente processava texto, visão e áudio por meio de uma rede de modelos de IA, o GPT-4o é um único modelo capaz de processar os três. Isso torna tudo muito mais rápido. Você pode mostrar ao GPT-4o uma imagem de um problema matemático com a câmera do seu telefone enquanto fala com o modelo verbalmente. A OpenAI afirma que seu novo modelo principal opera em níveis de inteligência GPT-4 estabelecendo novos patamares em capacidades multilíngues, de áudio e visão.

Além desta demonstração impressionante, a OpenAI está lançando o GPT-4o como um aplicativo para desktops macOS. Os usuários pagos também estão recebendo o aplicativo macOS hoje, mas o GPT-4o estará disponível para usuários gratuitos no futuro. O aplicativo de desktop permitirá iniciar conversas por voz com o ChatGPT diretamente do seu computador e compartilhar sua tela com o mínimo de atritos. O site do ChatGPT também está passando por uma atualização simplificada.

Os membros da equipe da OpenAI, Mark Chen e Barret Zoph, demonstraram como o modelo de IA multimodal em tempo real funciona no palco na segunda-feira. A conversa em tempo real funcionou na maioria do tempo, já que Chen e Zoph interromperam o modelo para pedir que ele alterasse as respostas. O GPT-4o contou histórias para dormir, ajudou com problemas matemáticos e muito mais. Em alguns momentos, o GPT-4 Omni teve dificuldade em entender a intenção dos usuários, mas o modelo foi bastante gracioso ao navegar pelas gafes.

O modelo de voz era capaz de fazer diferentes vozes ao contar uma história, rir e até dizer ‘Isso é tão gentil da sua parte’ em um momento. É evidente que a equipe da OpenAI garantiu que o GPT-4o tivesse mais emoção e fosse mais conversacional do que modelos de voz anteriores. Nas demonstrações, o ChatGPT soou mais humano do que nunca.

Um membro da equipe da OpenAI confirmou em um tweet que a empresa estava testando o GPT-4o na arena de chatbots da LMSYS Org como ‘im-also-a-good-gpt2-chatbot’. Como muitos suspeitavam e Sam Altman insinuou, esses eram modelos da OpenAI em desenvolvimento. De acordo com o funcionário, o último chatbot superou claramente a concorrência, incluindo os líderes da indústria GPT-4 Turbo e Claude 3 Opus, em vários aspectos.

O lançamento do GPT-4o parece ser um momento seminal para o futuro dos chatbots de IA. Esta tecnologia supera muitas das latências constrangedoras que assolaram os primeiros chatbots. É fácil imaginar uma versão da Siri que é muito útil com o GPT-4o. Essas capacidades em tempo real são provavelmente graças aos mais recentes chips de inferência da Nvidia, os quais Murati destacou antes de encerrar a apresentação. De qualquer forma, a OpenAI reafirmou sua posição dominante como líder em inovação em IA com a demonstração de segunda-feira. Agora, esperamos para ver se a apresentação nos deu uma representação precisa do que esta tecnologia pode fazer, ou se foi cuidadosamente orquestrada para evitar falhas evidentes.