Google lança Gemini 1.5 Pro, seu novo chatbot de IA
O Google apresentou oficialmente a nova — e mais potente — versão do seu chatbot de IA (Inteligência Artificial), o Gemini 1.5 Pro — sua plataforma de inteligência artificial. Agora, o chatbot é capaz de processar conteúdo em áudio e vídeo. Ou seja, ele pode funcionar sem a necessidade do usuário ter que digitar comandos em texto.
Nova IA do Google utilizada no cotidiano
Com a nova atualização do Gemini, a IA pode ser utilizada para fazer análises multimodais, ou seja, em texto, imagem, áudio e vídeo. A inteligência artificial promete, por exemplo, transcrever áudios, fazer traduções, analisar dados e resumir informações de uma reunião em videochamada, sem a necessidade do trabalho de uma transcrição humana.
Assim, a IA pode (em teoria) fazer automaticamente a ata com os assuntos mais importantes de uma reunião online. Ela pode, inclusive, executar comandos e responder perguntas durante uma chamada no Google Meet.
Fora do ambiente corporativo, a ferramenta poderia ser usada, por exemplo, para identificar todas as vezes que um comentarista gritar “Gol!” em um vídeo de partida de futebol. Assim, poderia gerar automaticamente estatísticas sobre times e seus jogadores.
A empresa espera que o modelo também ajude a melhorar o atendimento de médicos a pacientes, encontrar padrões e alternativas para agilizar as cadeias de suprimentos ou melhorar os sistemas automatizados de atendimento a clientes pelas empresas.
Outras novidades do Gemini
Vale ressaltar que o Gemini 1.5 Pro é apenas uma das muitas novidades apresentadas durante o Next 2024. Outra função revelada pela empresa é o Imagen 2, um modelo de geração de imagens com base em prompts de texto — rival do DALL-E.
A principal novidade do modelo de imagem são os recursos “inpainting” e “outpainting”, que lhe permite adicionar ou remover elementos de imagens. Porém, para evitar problemas de desinformação e geração de fake news — principalmente durante um cenário de eleições –, o Google também apresentou também a marca d’água invisível SynthID, que permite averiguar sua real origem.
Tem também o Google Vids, um aplicativo de criação de vídeo destinado a apresentações. Você pode usá-lo para criar slides usando uma linha do tempo simples em que você insere arquivos do seu Google Drive. Além disso, os usuários podem pedir ao Gemini para escrever scripts, criar storyboards e até ler roteiros em voz alta usando texto para fala. A IA pode (ainda) gerar desenhos a partir de uma biblioteca de imagens.
Há ainda novidades mais corriqueiras, como uso de IA na hora de escrever um e-mail. O usuário pode clicar em um botão “Ajude-me a escrever” no Gmail para “melhorar” um texto, compor uma mensagem completa a partir de uma nota salva ou receber sugestões de escrita.
Durante uma sessão de bate-papo, o usuário pode pedir para a que a inteligência artificial faça traduções em 69 idiomas ou tomar notas sobre a conversa. A IA do Google promete facilitar o trabalho de compartilhar documentos ou proteger informações confidenciais ou privadas.
Aliás, a IA pode ainda planejar facilmente o roteiro completo das suas próximas férias.
Google busca superar a popularidade do ChatGPT
O Google busca competir de igual para igual com o ChatGPT, da OpenAI. Após uma estreia bastante desastrada do então Bard AI, tenta consolidar suas ferramentas de IA no mercado de tecnologia. A empresa encontrou sucesso no segmento mobile. Ela vem oferecendo recursos de inteligência artificial para apps nativos do sistema Android — e que podem aparecer também na próxima versão do iOS.
Mesmo com um cenário um pouco mais favorável, a empresa ainda não escapa das polêmicas. A mais recente envolve seu gerador público de imagens, que saiu do ar após sofrer acusação de “forçar diversidade” por gerar resultados historicamente imprecisos.