Paulo Sobral
28 de maio de 2024
Inteligência Artificial

OpenAI Revela Capacidades de Voz do GPT-4 Omni e Elas São Literalmente Inacreditáveis

A OpenAI apresentou o GPT-4 Omni (GPT-4o) durante sua Atualização de Primavera na segunda-feira de manhã em São Francisco. A Diretora de Tecnologia Mira Murati e a equipe da OpenAI mostraram seu novo modelo principal, capaz de manter conversas verbais em tempo real com um chatbot de IA amigável que fala de forma convincente como um humano.

“O GPT-4o fornece inteligência de nível GPT-4, porém é muito mais rápido”, disse Murati no palco. “Nós acreditamos que o GPT-4o está realmente mudando esse paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural e mais fácil”.

O GPT-4o responde instantaneamente às solicitações verbais em uma voz amigável que soa incrivelmente como Scarlett Johansson, que deu voz à assistente de IA no filme “Ela”. Com base nas demos, essa tecnologia basicamente torna esse filme uma realidade. A fala do GPT-4o tem uma entonação emocional, mostrando empolgação em alguns momentos e rindo em outros. Além disso, ele pode identificar emoções e tom na fala dos usuários também. A equipe da OpenAI demonstrou conversas com os chatbots de IA com quase nenhum atraso, e o chatbot até conseguiu se adaptar rapidamente quando foi interrompido.

Enquanto as habilidades de áudio do GPT-4o são impressionantes, o Omni opera em vários meios. Enquanto o ChatGPT processava anteriormente texto, visão e áudio por meio de uma rede de modelos de IA, o GPT-4o é um modelo único capaz de processar todos os três. Isso faz com que tudo funcione muito mais rápido. Você pode mostrar ao GPT-4o uma imagem de um problema matemático com a câmera do seu telefone enquanto fala com o modelo verbalmente. A OpenAI afirma que seu novo modelo principal opera em níveis de inteligência GPT-4 enquanto estabelece marcos revolucionários de capacidades multilíngues, de áudio e visão.

Além dessa demo impressionante, a OpenAI está lançando o GPT-4o como um aplicativo de desktop para macOS. Os usuários pagos também estão recebendo o aplicativo macOS hoje, mas o GPT-4o estará disponível para usuários gratuitos no futuro. O aplicativo de desktop permitirá que você inicie conversas por voz com o ChatGPT diretamente do seu computador e compartilhe sua tela com o mínimo de atrito. O site ChatGPT também está recebendo uma atualização simplificada.

Os membros da equipe da OpenAI, Mark Chen e Barret Zoph, demonstraram como o modelo de IA multimodal em tempo real funciona no palco na segunda-feira. A conversa em tempo real funcionou muito bem, já que Chen e Zoph interromperam o modelo para solicitar que ele mudasse as respostas. O GPT-4o contou histórias de ninar, ajudou com problemas matemáticos e muito mais. Em alguns momentos, o GPT-4 Omni teve dificuldades para entender a intenção dos usuários, mas o modelo se saiu muito bem ao contornar esses deslizes.

O modelo de voz foi capaz de fazer diferentes vozes ao contar uma história, rir e até dizer “Isso é tão gentil da sua parte” em um momento. Está claro que a equipe da OpenAI garantiu que o GPT-4o tivesse mais emoção e fosse mais conversacional do que os modelos de voz anteriores. Nas demos, o ChatGPT soou mais humano do que nunca.

Um membro da equipe da OpenAI confirmou em um tweet que a empresa vem testando o GPT-4o na arena de chatbots LMSYS Org como “im-also-a-good-gpt2-chatbot”. Como muitos suspeitaram e Sam Altman sugeriu, esses eram modelos em desenvolvimento da OpenAI. De acordo com o funcionário, o chatbot mais recente superou drasticamente a concorrência, incluindo os líderes do setor GPT-4 Turbo e Claude 3 Opus, em vários aspectos.

O lançamento do GPT-4o parece ser um momento seminal para o futuro dos chatbots de IA. Essa tecnologia supera grande parte das latências constrangedoras que assolavam os primeiros chatbots. É fácil imaginar uma versão da Siri que seja bastante útil com o GPT-4o. Essas capacidades em tempo real são provavelmente graças aos últimos chips de inferência da Nvidia, que Murati fez questão de mencionar antes de encerrar a apresentação. Independentemente disso, a OpenAI reafirmou sua posição dominante como líder em inovação em IA com a demo de segunda-feira. Agora, aguardamos para ver se a apresentação nos deu uma representação precisa do que essa coisa pode fazer, ou se foi cuidadosamente encenada para evitar falhas óbvias.

Paulo Sobral

Especialista em segurança digital, ajudo você a se proteger contra hackers, malwares e outras ameaças virtuais. Compartilho notícias, dicas e as melhores práticas para manter seus dados seguros e sua vida online protegida.