Agentes de IA Prometem Conectar os Pontos Entre a Realidade e a Ficção Científica

Se você sintonizou no Google I/O, na Atualização da Primavera da OpenAI ou no Microsoft Build este mês, provavelmente ouviu o termo agentes de IA aparecer bastante no último mês. Eles estão rapidamente se tornando a próxima grande novidade em tecnologia, mas o que exatamente são eles? E por que todo mundo está falando sobre eles de repente?

O CEO do Google, Sundar Pichai, descreveu um sistema de inteligência artificial que poderia devolver um par de sapatos em seu nome no palco do Google I/O. Na Microsoft, a empresa anunciou sistemas de IA do Copilot que poderiam agir independentemente como funcionários virtuais. Enquanto isso, a OpenAI revelou um sistema de IA, o GPT-4 Omni, que pode ver, ouvir e falar. Antes disso, o CEO da OpenAI, Sam Altman, disse ao MIT Technology que agentes úteis detêm o melhor potencial da tecnologia. Esses tipos de sistemas são as novas referências que todas as empresas de IA estão tentando alcançar, mas isso é mais fácil de dizer do que de fazer.

Simplificando, os agentes de IA são apenas modelos de IA que fazem algo de forma independente. É como Jarvis de Homem de Ferro, Tars de Interestelar ou HAL 9000 de 2001: Uma Odisseia no Espaço. Eles vão além de apenas criar uma resposta como os chatbots com os quais estamos familiarizados – há ação. Para começar, Google, Microsoft e OpenAI estão tentando desenvolver agentes que possam lidar com ações digitais. Isso significa que eles estão ensinando agentes de IA a trabalhar com várias APIs em seu computador. Idealmente, eles podem pressionar botões, tomar decisões, monitorar canais autonomamente e enviar solicitações.

“Concordo que o futuro está nos agentes”, disse o fundador e CEO da Echo AI, Alexander Kvamme. Sua empresa constrói agentes de IA que analisam as conversas de uma empresa com os clientes e fornecem insights sobre como melhorar essa experiência. “A indústria fala sobre isso há anos e ainda não se materializou. É apenas um problema tão difícil.”

Kvamme diz que um sistema verdadeiramente agente precisa tomar dezenas ou centenas de decisões de forma independente, o que é uma tarefa difícil de automatizar. Para devolver um par de sapatos, por exemplo, como explicou Pichai, da Google, um agente de IA pode ter que escanear seu e-mail em busca de um recibo, buscar o número do seu pedido e endereço, preencher um formulário de devolução e cumprir várias ações em seu nome. Há muitas decisões nesse processo que você nem pensa, mas está tomando subconscientemente.

Como vimos, grandes modelos de linguagem (LLMs) não são perfeitos nem mesmo em ambientes controlados. A nova coisa favorita de Altman é chamar o ChatGPT de “incrivelmente burro”, e ele não está exatamente errado. Quando você pede aos LLMs para trabalhar de forma independente na internet aberta, eles estão propensos a erros. Mas é nisso que inúmeras startups, incluindo a Echo AI, estão trabalhando, assim como empresas maiores como Google, OpenAI e Microsoft.

Se você pode criar agentes digitalmente, não há muita barreira para criar agentes que trabalhem com o mundo físico também. Basta programar essa tarefa para um robô. Então você realmente entra no campo da ficção científica, já que os agentes de IA oferecem o potencial de atribuir a robôs uma tarefa como “pegar o pedido daquela mesa” ou “instalar todas as telhas neste telhado.” Estamos longe disso, mas o primeiro passo é ensinar agentes de IA a realizar tarefas digitais simples.

Há um problema frequentemente discutido no mundo dos agentes de IA: garantir que você não projete um agente para realizar uma tarefa muito bem. Se você construísse um agente para devolver sapatos, teria que garantir que ele não devolvesse todos os seus sapatos, ou talvez todas as coisas para as quais você tem recibos em sua caixa de entrada do Gmail. Embora pareça bobo, há uma pequena, mas barulhenta, parte de pesquisadores de IA que se preocupam que agentes de IA excessivamente determinados possam significar a ruína da civilização humana. Suponho que, quando você está construindo coisas de ficção científica, essa é uma preocupação válida.

Do outro lado do espectro estão os otimistas, como a Echo AI, que acreditam que essa tecnologia será empoderadora. Essa divergência na comunidade de IA é bastante marcante, mas os otimistas veem um efeito libertador com os agentes de IA que é comparável ao computador pessoal.

“Eu acredito muito que grande parte do trabalho que [os agentes] resolverão é o trabalho que os humanos prefeririam não fazer”, disse Kvemne. “E há um uso de maior valor para o seu tempo na vida deles. Mas novamente, eles têm que se adaptar.”

Outro caso de uso dos agentes de IA são os carros autônomos. Tesla e Waymo são atualmente os líderes nessa tecnologia, onde os carros usam tecnologia de IA para navegar pelas ruas da cidade e rodovias. Embora seja de nicho, a tecnologia de carros autônomos é uma área de agentes de IA bastante desenvolvida, onde já estamos vendo a IA operando no mundo real.

Então, o que nos levará a esse futuro onde a IA pode devolver seus sapatos? Em primeiro lugar, os modelos de IA subjacentes provavelmente têm que melhorar e se tornar mais precisos. Isso significa que atualizações para o ChatGPT, Gemini e Copilot provavelmente antecederão sistemas de agentes totalmente funcionais. Os chatbots de IA ainda têm que superar o seu grande problema de alucinação, para o qual muitos pesquisadores não veem resposta. Mas também precisam haver atualizações nos próprios sistemas de agentes. Atualmente, a loja de GPT da OpenAI é o esforço mais elaborado para desenvolver uma rede de agentes, mas mesmo isso ainda não está muito avançado.

Embora os agentes de IA avançados definitivamente ainda não estejam aqui, esse é o objetivo para muitas empresas de IA grandes e pequenas atualmente. Isso poderia ser o que torna a IA significativamente mais útil em nossas vidas cotidianas. Embora pareça ficção científica, bilhões de dólares estão sendo gastos para tornar os agentes uma realidade em nossas vidas. No entanto, é uma promessa grande para empresas de IA que têm lutado para fazer com que chatbots respondam de forma confiável a perguntas básicas.