Google está comercializando a Gemini AI para empresas com ajuda do Goldman Sachs e da Mercedes.

Não é segredo que o chatbot de IA principal do Google, Gemini, teve alguns problemas. Sua produção de imagens historicamente imprecisas forçou a controladora do Google, Alphabet, a suspender temporariamente o produto no início deste ano.

Mas o Google está tentando virar a página em suas falhas iniciais de IA. Palestrantes principais na conferência anual Google Cloud Next em Las Vegas na terça-feira mostraram novos recursos do Gemini Pro 1.5, a versão mais recente de seu chatbot que agora está publicamente disponível. Os espectadores assistiram enquanto os demonstradores murmuravam para si mesmos e digitavam comandos no chatbot de IA reformulado para destacar suas novas ferramentas – talvez a mais importante das quais seja sua capacidade de “fundamentar” consultas. “Fundamentar” significa que as respostas no Gemini Pro 1.5 estão ligadas a “fontes verificáveis de informação”, disse a empresa na terça-feira.

Os anúncios sobre o Gemini 1.5 Pro incluíram uma variedade de atualizações para o chatbot como parte do impulso do Google para vender seus produtos de IA a clientes corporativos. O Gemini agora inclui capacidades adicionais para algo chamado “compreensão de contexto longo”, o que basicamente significa que ele pode processar muito mais informações. E ele tem capacidades multimodais – ou a capacidade de processar não apenas texto, mas também áudio, vídeo e outros formatos para gerar respostas.

“Com esses dois avanços, as empresas podem fazer coisas hoje que simplesmente não eram possíveis com a IA antes”, disse o CEO do Google, Sundar Pichai, durante a apresentação.

As empresas já estão testando o produto. Goldman Sachs, Mercedes e Uber estão entre os primeiros clientes do Gemini 1.5 Pro, disse o Google. O CEO da Goldman Sachs, David Solomon, fez uma aparição por vídeo no Google Next logo após Pichai. O CEO da Mercedes-Benz, Ola Källenius, também falou sobre a parceria da montadora alemã com o Google e o uso de seus produtos de IA.

O Google disse que o Gemini 1.5 Pro permite aos clientes “processar vastas quantidades de informação em um único fluxo” – incluindo 1 hora de vídeo, 11 horas de áudio ou mais de 700.000 palavras.

“Por exemplo”, acrescentou a empresa, “uma empresa de jogos poderia fornecer uma análise em vídeo do desempenho de um jogador, juntamente com dicas para melhorar. Ou uma seguradora poderia combinar vídeo, imagens e entradas de texto para criar um relatório de incidente, tornando o processo de reivindicação mais fácil”.

O Google fez alguns outros anúncios de IA, uma lista completa dos quais pode ser encontrada no site da conferência Google Next 2024.

**Google Vids**

O Google está lançando um aplicativo de criação de vídeos com IA, Google Vids. O aplicativo foi demonstrado por Aparna Pappu, VP do Google Workspace na terça-feira.

“Gemini sugere um contorno narrativo para a história que eu poderia facilmente personalizar e editar”, com base em uma solicitação no Google Docs, disse Pappu.

**Geração de imagem ao vivo a partir de texto**

A versão mais recente do gerador de IA do Google, Imagen 2.0, que é alimentado pelo Gemini, tem a capacidade de criar imagens ao vivo a partir de solicitações de texto. Ainda está em modo “pré-visualização”, mas os palestrantes principais em Las Vegas mostraram a funcionalidade.

“As equipes de marketing e criação podem gerar imagens animadas a partir de uma solicitação de texto, incluindo imagens de produtos, anúncios, GIFs e storyboards”, disse Pappu. Um outro demonstrador observou que a ferramenta cria imagens ao vivo que, de outra forma, levariam “dias ou semanas de pesquisa e filmagem”.

Pappu também anunciou que as imagens geradas pela IA do Google Imagen terão a capacidade de serem marcadas d’água usando o SynthID do Google DeepMind.