Agentes de IA Prometem Conectar os Pontos Entre Realidade e Ficção Científica

Se sintonizou para o Google I/O, a atualização de primavera do OpenAI ou para o Microsoft Build este mês, provavelmente ouviu falar do termo agentes de IA várias vezes no último mês. Eles estão se tornando rapidamente a próxima grande coisa na tecnologia, mas o que exatamente são? E por que todo mundo está falando sobre eles de repente?

O CEO do Google, Sundar Pichai, descreveu um sistema de inteligência artificial que poderia devolver um par de sapatos em seu nome no Google I/O. Na Microsoft, a empresa anunciou sistemas de IA Copilot que poderiam agir de forma independente como funcionários virtuais. Enquanto isso, o OpenAI revelou um sistema de IA, o GPT-4 Omni, que consegue ver, ouvir e falar. Antes disso, o CEO do OpenAI, Sam Altman, disse ao MIT Technology que agentes prestativos têm o melhor potencial da tecnologia. Esses tipos de sistemas são os novos padrões que todas as empresas de IA estão tentando alcançar, mas isso é mais fácil dizer do que fazer.

Simplificando, agentes de IA são simplesmente modelos de IA que fazem algo de forma independente. É como Jarvis do Homem de Ferro, Tars de Interestelar ou HAL 9000 de 2001: Uma Odisseia no Espaço. Eles vão um passo além de apenas criar uma resposta como os chatbots com os quais estamos familiarizados – há ação. Para começar, Google, Microsoft e OpenAI estão tentando desenvolver agentes que possam lidar com ações digitais. Isso significa que estão ensinando agentes de IA a trabalharem com várias APIs em seu computador. Idealmente, eles podem pressionar botões, tomar decisões, monitorar canais autonomamente e enviar solicitações.

“Concordo que o futuro são os agentes”, disse Alexander Kvamme, fundador e CEO da Echo AI. Sua empresa constrói agentes de IA que analisam as conversas de negócios com os clientes e fornecem insights sobre como melhorar essa experiência. “A indústria fala sobre isso há anos e ainda não se concretizou. É um problema tão difícil.”

Kvamme diz que um sistema verdadeiramente agente precisa tomar dezenas ou centenas de decisões de forma independente, o que é algo difícil de automatizar. Para devolver um par de sapatos, por exemplo, como explicou Pichai do Google, um agente de IA pode ter que escanear seu e-mail em busca de um recibo, pegar seu número do pedido e endereço, preencher um formulário de devolução e realizar várias ações em seu nome. Existem muitas decisões nesse processo que você nem sequer pensa, mas está tomando subconscientemente.

Como vimos, modelos de linguagem de grande porte (LLMs) não são perfeitos nem mesmo em ambientes controlados. O novo termo favorito de Altman é chamar o ChatGPT de “incrivelmente burro”, e ele não está totalmente errado. Quando você pede aos LLMs para trabalharem de forma independente na internet, eles estão sujeitos a cometer erros. Mas é isso que inúmeras startups, incluindo a Echo AI, estão trabalhando, assim como empresas maiores como Google, OpenAI e Microsoft.

Se você consegue criar agentes digitalmente, não há muita barreira para criar agentes que trabalham também com o mundo físico. Basta programar essa tarefa para um robô. Então, você realmente entra nas coisas da ficção científica, já que os agentes de IA oferecem o potencial de atribuir aos robôs tarefas como “pegar o pedido daquela mesa” ou “instalar todas as telhas neste telhado”. Ainda estamos longe disso, mas o primeiro passo é ensinar agentes de IA a fazer tarefas digitais simples.

Há um problema frequentemente discutido no mundo dos agentes de IA: garantir que você não projete um agente para fazer uma tarefa muito bem. Se você construísse um agente para devolver sapatos, teria que garantir que ele não devolvesse todos os seus sapatos, ou talvez todas as coisas para as quais você tem recibos em sua caixa de entrada do Gmail. Embora pareça bobo, existe um pequeno, mas barulhento grupo de pesquisadores de IA que se preocupam que agentes de IA excessivamente determinados possam significar o fim da civilização humana. Suponho que ao construir coisas da ficção científica, essa seja uma preocupação válida.

Do outro lado do espectro estão os otimistas, como a Echo AI, que acreditam que essa tecnologia será capacitadora. Essa divergência na comunidade de IA é bastante acentuada, mas os otimistas veem um efeito libertador com agentes de IA comparável ao computador pessoal.

“Eu acredito fortemente que muito do trabalho que [agentes] resolverão é trabalho que os humanos prefeririam não fazer”, disse Kvamme. “E há um uso de valor mais alto para o tempo deles em suas vidas. Mas novamente, eles precisam se adaptar.”

Outro caso de uso para agentes de IA são os carros autônomos. Tesla e Waymo são atualmente os líderes nessa tecnologia, onde os carros usam tecnologia de IA para navegar nas ruas da cidade e nas estradas. Embora seja nicho, a tecnologia de carros autônomos é uma área bastante desenvolvida de agentes de IA, onde já estamos vendo a IA operando no mundo real.

Então, o que nos levará a esse futuro em que a IA pode devolver seus sapatos? Em primeiro lugar, é provável que os modelos de IA subjacentes tenham que melhorar e se tornar mais precisos. Isso significa que atualizações para ChatGPT, Gemini e Copilot provavelmente precederão sistemas de agentes completamente funcionais. Os chatbots de IA ainda têm que superar seu grande problema de alucinação, para o qual muitos pesquisadores não veem uma solução. Mas também precisam haver atualizações nos sistemas de agentes em si. Atualmente, a loja GPT da OpenAI é o esforço mais desenvolvido para desenvolver uma rede de agentes, mas nem mesmo isso é muito avançado ainda.

Embora os agentes de IA avançados definitivamente ainda não estejam aqui, esse é o objetivo para muitas empresas de IA grandes e pequenas atualmente. Isso poderia ser o que torna a IA significativamente mais útil em nossas vidas cotidianas. Embora pareça ficção científica, bilhões de dólares estão sendo gastos para tornar os agentes uma realidade em nossas vidas. No entanto, é uma promessa difícil para as empresas de IA que têm lutado para fazer chatbots responderem de forma confiável a perguntas básicas.