Existe um grande problema com os agentes de IA: erram 70% das vezes…
Apesar do entusiasmo generalizado em torno da inteligência artificial (IA), os agentes de IA autónomos ainda estão longe da perfeição. Um estudo recente revela uma taxa de insucesso surpreendentemente alta, o que questiona a sua capacidade para substituir humanos em tarefas mais complexas.
Uma taxa de erro de 70%...
Os agentes de IA falham muito mais do que acertam. Esta é a principal conclusão de um estudo recente conduzido por investigadores da Universidade Carnegie Mellon (UCM) e da Universidade de Duke, que decidiram testar se o alarido em torno desta tecnologia se justifica. De momento, a resposta parece ser negativa.
A inspiração para este trabalho, segundo Graham Neubig, professor na UCM, veio de um artigo da OpenAI que sugeria que tipos de trabalho poderiam ser substituídos por sistemas de IA. Contudo, Neubig criticou a metodologia, afirmando que "basicamente, limitaram-se a perguntar ao ChatGPT se esses trabalhos poderiam ser automatizados".
Para realizar um teste mais rigoroso, a sua equipa colocou vários agentes de IA a executar tarefas que, teoricamente, seriam da responsabilidade de profissionais humanos.
Para o efeito, criaram uma empresa fictícia, a "The Agent Company", onde diferentes modelos de IA tinham de completar trabalhos utilizando serviços como GitLab, Owncloud e RocketChat. O desempenho, no entanto, foi dececionante.
Resultados desanimadores e falhas estranhas
Nos ambientes de teste, os investigadores descobriram que, no melhor dos cenários, os modelos de IA falham em 70% das tarefas. O modelo com melhor desempenho foi o Claude Sonnet 4, que conseguiu resolver apenas 33,1% dos desafios propostos.
Outros modelos conhecidos ficaram para trás, como o Claude 3.7 Sonnet (30,9%), o Gemini 2.5 Pro (30,3%) e, a uma distância considerável, um desastroso GPT-4o, com apenas 8,6% de sucesso.
Durante os testes, foram observados diversos tipos de falhas. Houve agentes que se recusaram a enviar uma mensagem a colegas (uma parte fundamental da tarefa), outros que se mostraram incapazes de gerir janelas pop-up durante a navegação na web e até alguns que recorreram a "esquemas".
Num caso particularmente ilustrativo, um agente que deveria contactar uma pessoa específica no RocketChat (uma alternativa open-source ao Slack) não a encontrou. A sua solução foi renomear outro utilizador existente para o nome da pessoa que precisava de contactar.
Nem tudo está perdido: a evolução é real
Apesar dos problemas, a evolução no desempenho destes agentes de IA tem sido positiva. Neubig e a sua equipa testaram um agente de software que, inicialmente, resolvia cerca de 24% das tarefas. Seis meses depois, uma nova versão do mesmo agente já alcançava uma taxa de sucesso de 34%, um sinal de progresso rápido.
Além disso, os investigadores salientam que, mesmo imperfeitos, estes agentes podem ser úteis. Em contextos como a programação, uma sugestão de código parcial para resolver um problema específico pode servir de base para um programador humano desenvolver a solução final.
No entanto, é importante ter cuidado com a sua implementação. Delegar tarefas sensíveis, como desenvolvimento de sistemas críticos, a um agente que comete tantos erros pode ter consequências desastrosas.
Leia também:
Agentes LLM? Não existem agentes de IA, just saying.
O que temos atualmente como chatgpt e outros,não são conscientes, não pensam.
São algoritmos bastante complexos e avançados que perante bases de dados devidamente organizadas e classificadas ajudam a encontrar rapidamente correlação entre fontes de dados diferentes e por vezes domínios de conhecimento diferentes. Mas AI? nope, e sim daí “errarem” tanto
O CEO da Microsoft é que adora os agentes de IA.
Desconfio que ele se anda a aconselhar, com os mesmos.
Em 70% das vezes as IA não foram capazes de concluir todas as etapas das tarefas que lhes deram. Quais tarefas? Só são bem especificadas duas. Numa, a IA tem que navegar na web – aparece-lhe uma janela de pop-up e não atina com o “X” para a fechar. Noutra, a IA tem que estabelecer contactos para saber qual seria a pessoa a quem se devia dirigir para obter uma certa informação, faz os contactos e identifica a pessoa, mas não lhe telefona a pedir a informação por considerar a tarefa concluída.
Como um humano facilmente carregava no “X” ou percebia que a tarefa só estava concluída depois de identificar a pessoa que tinha a informação e pedir-lha – a IA falhou. Em todo o caso, é preferível dizer que a “IA falhou” ou que não foi capaz de realizar uma tarefa que um humano é capaz de realizar (e por isso não é capaz de o substituir) em vez de a “IA errou”.
Mas também depende das tarefas: em administração e finanças, que são fáceis para os humanos, foi onde os modelos LLM tiveram mais dificuldade. Em desenvolvimento de engenharia de software foi onde as IA obtiveram melhor score.
A IA errou… porque recebeu, instruções 100% detalhadas, de que devia usar um programa, fazer login, usando a informação cedida, sobre uma conta, que a empresa usa, enviar 30 linhas, de informação, a um utilizador.
Ora, a IA, não descobriu que programa era aquele, então usou, o whatsapp, registou um novo utilizador, com a designação que recebeu, para enviar as 30 linhas. Validando que cumpriu as tarefas. Por isso, a IA errou a 100%, em todas as tarefas.
A IA pode ler 80000000000000000000000000 de páginas, por segundo. Daí o software ser mais simples, de montar, pois é possível criar 100000000 milhões de biliões, de linhas, baseadas nas instruções, de forma a reduzir as incongruências. Além de poder realizar 100000000 milhões de testes, por minuto. Aí sim, a IA pode ajudar a desenvolver programas, melhores. Mesmo assim, existem muitas limitações, pois criar software que suporte coisas externas (como a operação humana), a lógica, dos 80000000000000000000 milhões de páginas, não é incluída.
É uma questão de tempo, ainda são bebés aprender a caminhar. A evolução está a ser muito rápida. Os broncos e aqui há muitos nem se apercebem do potencial dos agentes de IA.
Isso é o mesmo que disseram da “condução 100% autónoma”, em 2014. O anúncio que “em 3 anos, 100 milhões de carros, já não precisam de condutor para fazerem 10000km, por dia”. Viu a data de hoje?
existem agentes de AI 100x superiores aos testados. Não entendo como testam botalhada.
Quais? É que o ChatGPT falhou a 99,93%, a preencher uma declaração de IRS, em que existia uma rasteira simples, que o contribuinte só tinha a chave móvel digital, de 1 das contas, com as outras a usar as senhas, do site. A IA 50000000% certa, segundo você, não foi capaz de perceber, que há 2 formas de fazer login, no site. Assim, fez download, do programa, para preenchimento externo e gravou o ficheiro, com os nifs dos contribuintes.
O Deepseek até foi mais simpático, disse logo que não podia aceder ao site, porque não corria HTML 7000 versão 2025.
Um agente de IA =
LLM (Cérebro) + Agente (Corpo)
E a qualidade final depende de ambos:
Componente Impacto na qualidade
LLM (Cérebro) Qualidade do raciocínio, compreensão, criatividade, fluidez da resposta.
Agente (Corpo) Capacidade de executar corretamente ações no mundo real, robustez, segurança, integração com sistemas.
Exemplos:
Um LLM top com um agente básico pode gerar ideias excelentes mas falhar ao executar (ex: clicar na janela errada, apagar ficheiros errados).
Um agente muito bem feito com um LLM limitado pode executar tarefas simples com precisão, mas não vai raciocinar ou adaptar-se a contextos complexos.
O ideal é uma combinação equilibrada:
LLM poderoso (ex: GPT‑4o, Claude 3.5)
Agente robusto, confiável, seguro, e que entenda o ambiente do utilizador (ex: OpenHands, OpenAgents).
Não existe um melhor tudo em um cada Agente é especializado em determinadas tarefas e deve ser escolhido o agente de acordo com essas tarefas que se querem fazer.
OpenAgents: Ideal para tarefas específicas e isoladas (ex.: extrair dados de planilhas, automatizar interações web) sem necessidade de colaboração entre agentes.
n8n: Recomendado para automações de negócios que exigem integração com APIs externas (ex.: CRM, ERP) e implantação rápida.
AutoGen: Superior para problemas complexos que envolvem geração de código, múltiplos especialistas em IA e intervenção humana.
LangChain: Melhor para prototipagem avançada de aplicações LLM, especialmente com necessidade de controle total sobre componentes
Existe um Sistema Operativo que mete a AI à frente de tudo o resto que também dá para criar agentes. o SmythOS.
Como já escrevi anteriormente a “Inteligência Artificial” é uma técnica de programação muito específica e que nada tem a ver com o ChatGPT, DeepSeek, Gemini, Perplexity, e outras soluções que agora abundam, todas elas prometendo milagres.
Para não complicar vou chamar às atuais IA como plataformas de programação inteligente do conhecimento adquirido tornado público, enquanto a programação de inteligência artificial é uma técnica de redes neurais que tenta reproduzir a inteligência como um fator fisiológico de imitação do cérebro.
Simplificando, as atuais “AI” = Conhecimento Redes Neurais = Inteligência
Qual a diferença? É simples, façam uma pergunta que aparentemente não tem solução, mas cuja solução é óbvia para um humano. Claro que a resposta não pode existir no chamado mundo cibernético, ou se existir que seja praticamente inexistente.
Se encontrarem essa pergunta que toda a gente sabe a resposta óbvia, pesquisem no Google ou outro programa semelhante e vejam quais as respostas mais dadas. Depois coloquem a pergunta a um sistema de “AI”. Verão que a resposta é a mais consensual que obtiveram no Google ou semelhante, isto porque o programa de AI foi baseado nas respostas divulgadas na “internet” e nas redes sociais. Mas o “conhecimento” das massas nem sempre é o correto.
Por exemplo, coloquem a seguinte questão a um “AI”:
“Como se sai de um labirinto que não tem saída?”
Provavelmente a resposta dada será para seguir sempre a mesma direção (“mão direita” ou “mão esquerda”) porque foi a que o Google me apresentou como resposta á minha pesquisa, passando por cima do facto de que o “labirinto não tem saída”.
No entanto todos os humanos sabem que os labirintos tem sempre pelo menos uma saída que pode ser coincidente com a entrada, logo a resposta “inteligente” deveria ser.
“Deve sair pela entrada”
Isto tem a ver com a ideia preconcebida que determinadas coisas tem determinadas características que assumimos como imutáveis e não pensamos “fora da caixa” e aqueles que o fazem são chamados de “inteligentes”. É óbvio que se tem entrada tem saída.
Argumento: E se o labirinto não tem entrada nem saída?
Resposta: Deixava de ser um labirinto e passava a ser um circuito fechado.
Resposta: Pulava a parede, como é óbvio, mesmo que seja um sistema fechado a saída pode ser aquela que está por natureza aberta que é a parte superior.
Argumento: E se o labirinto não tem entrada nem saída e tem cobertura?
Resposta: Então agora é uma prisão? A maneira mais usada para sair de uma prisão é escavando um túnel.
Aquilo que pretendi aqui demonstrar é que uma coisa é conhecimento outra é inteligência, e para mim o conhecimento é a utilização de uma solução que já conhecemos e inteligência é a capacidade que temos de encontrar uma solução para problemas com que nunca antes nos deparámos.
Portanto não é de admirar que estes programas errem tão frequentemente. A sua origem é baseado em redes sociais e textos existentes na internet, muitos deles sem qualquer tipo de avaliação e/ou revisão, e todos sabemos quem somos e como queremos aparentar saber mais sobre todos os assuntos quando na verdade pouco ou nada sabemos sobre qualquer assunto
A IA só diz disparates.
Quem sabe pesquisar não precisa de IA.