O Google lançou oficialmente a nova versão do seu chatbot de IA, o Gemini 1.5 Pro, durante o evento Google Cloud Next 2024. Agora, o chatbot pode processar conteúdo em áudio e vídeo, sem a necessidade de comandos em texto. A IA do Google está mais inteligente, capaz de compreender instruções complexas e textos longos, como 1 hora de vídeo, 11 horas de áudio, código com mais de 30.000 linhas ou mais de 700 mil palavras em um fluxo único.
O novo modelo supera o Gemini Ultra, sendo capaz de análises multimodais em texto, imagem, áudio e vídeo. Pode transcrever áudios, traduzir, analisar dados e resumir informações de reuniões em videochamadas. No âmbito corporativo, a IA pode automatizar a elaboração de atas de reuniões e responder perguntas no Google Meet.
Além disso, a ferramenta pode ser utilizada para diversas finalidades, como identificar lances de gol em partidas de futebol, melhorar o atendimento médico, otimizar cadeias de suprimentos e sistemas automatizados de atendimento ao cliente.
Outras novidades apresentadas incluem o Imagen 2, um modelo de geração de imagens baseado em prompts de texto, e o Google Vids, um aplicativo para criação de vídeos. A IA pode ajudar na escrita de e-mails, fazer traduções em 69 idiomas e planejar itinerários de viagem.
O Google busca competir com o ChatGPT, da OpenAI, oferecendo recursos de IA para aplicativos Android e possivelmente para a próxima versão do iOS. Mesmo com o sucesso, a empresa enfrenta controvérsias, como problemas com geração de imagens historicamente imprecisas.