Paulo Sobral
26 de maio de 2024
Inteligência Artificial

OpenAI Revela Capacidades de Voz de GPT-4 Omni e Elas São Literalmente Incríveis

A OpenAI apresentou o GPT-4 Omni (GPT-4o) durante sua Atualização de Primavera na manhã de segunda-feira em San Francisco. A Diretora de Tecnologia Mira Murati e a equipe da OpenAI apresentaram seu mais novo modelo principal, capaz de conversas verbais em tempo real com um simpático chatbot de IA que fala de forma convincente como um humano.

“O GPT-4o fornece inteligência de nível GPT-4, mas é muito mais rápido”, afirmou Murati no palco. “Achamos que o GPT-4o está realmente mudando esse paradigma para o futuro da colaboração, onde essa interação se torna muito mais natural e muito mais fácil.”

O GPT-4o responde instantaneamente a comandos verbais com uma voz amigável que soa de forma incrivelmente semelhante a Scarlett Johansson, que deu voz à assistente de IA no filme “Her”. Com base nas demonstrações, essa tecnologia essencialmente torna aquele filme realidade. A fala do GPT-4o tem uma entonação emocional, mostrando entusiasmo em alguns momentos e rindo em outros. Além disso, ele consegue identificar emoção e tom na fala dos usuários também. A equipe da OpenAI demonstrou conversas com os chatbots de IA com quase nenhum atraso, e o chatbot até conseguiu mudar rapidamente quando interrompido.

Enquanto as habilidades de áudio do GPT-4o são impressionantes, o Omni funciona em vários meios. Enquanto o ChatGPT processava anteriormente texto, visão e áudio por meio de uma rede de modelos de IA, o GPT-4o é um único modelo capaz de processar os três. Isso faz com que tudo funcione muito mais rápido. Você pode mostrar ao GPT-4o uma imagem de um problema matemático com a câmera do seu celular enquanto fala com o modelo verbalmente. A OpenAI diz que seu novo modelo principal opera em níveis de inteligência do GPT-4, estabelecendo marcos inovadores em capacidades multilíngues, de áudio e visão.

Além dessa impressionante demonstração, a OpenAI está lançando o GPT-4o como um aplicativo de desktop para macOS. Os usuários pagos também estão recebendo o aplicativo de macOS hoje, mas o GPT-4o estará disponível para usuários gratuitos no futuro. O aplicativo de desktop permitirá que você inicie conversas por voz com o ChatGPT diretamente do seu computador e compartilhe sua tela com pouco atrito. O site do ChatGPT também está passando por uma atualização simplificada.

Os membros da equipe da OpenAI Mark Chen e Barret Zoph demonstraram como o modelo de IA multimodal em tempo real funciona no palco na segunda-feira. A conversa em tempo real funcionou muito bem, com Chen e Zoph interrompendo o modelo para pedir para ele mudar as respostas. O GPT-4o contou histórias para dormir, ajudou com problemas matemáticos e muito mais. Em alguns momentos, o GPT-4 Omni lutou para entender a intenção dos usuários, mas o modelo foi bastante habilidoso ao navegar pelos deslizes.

O modelo de voz era capaz de fazer diferentes vozes ao contar uma história, rir e até dizer “Isso é tão gentil da sua parte” em certo momento. Fica claro que a equipe da OpenAI garantiu que o GPT-4o tivesse mais emoção e fosse mais conversacional do que os modelos de voz anteriores. Nas demonstrações, o ChatGPT soava mais humano do que nunca.

Um membro da equipe da OpenAI confirmou em um tweet que a empresa estava testando o GPT-4o na arena do chatbot LMSYS Org como “também-sou-um-bom-chatbot-gpt2”. Como muitos suspeitavam e Sam Altman insinuou, esses eram modelos da OpenAI em desenvolvimento. De acordo com o funcionário, o último chatbot superou nitidamente a concorrência, incluindo líderes do setor como GPT-4 Turbo e Claude 3 Opus, em vários aspectos.

O lançamento do GPT-4o parece ser um momento seminal para o futuro dos chatbots de IA. Essa tecnologia supera grande parte das latências constrangedoras que assolavam os primeiros chatbots. É fácil imaginar uma versão da Siri que é bastante útil com o GPT-4o. Essas capacidades em tempo real provavelmente são graças aos últimos chips de inferência da Nvidia, que Murati fez questão de destacar antes de terminar a apresentação. Independentemente disso, a OpenAI reafirmou sua posição dominante como líder em inovação em IA com a demonstração de segunda-feira. Agora, aguardamos para ver se a apresentação nos deu uma representação precisa do que esse dispositivo pode fazer ou se foi cuidadosamente encenada para evitar falhas óbvias.

Paulo Sobral

Especialista em segurança digital, ajudo você a se proteger contra hackers, malwares e outras ameaças virtuais. Compartilho notícias, dicas e as melhores práticas para manter seus dados seguros e sua vida online protegida.