Seu agente de IA é mais fácil de enganar do que você

Seu agente de IA é mais fácil de enganar do que você

·5 min de leituraMarketing, Persuasão e Posicionamento

Você pede ao assistente para achar a passagem mais barata. Em vez disso, ele fecha a compra com assento premium, seguro extra e cookies aceitos em todas as telas. Não porque “quis”, mas porque leu uma caixa pré-marcada como se fosse uma etapa obrigatória. Esse tipo de erro parece detalhe de interface. Na prática, é um problema novo de segurança.

O ponto central dos estudos mais recentes é desconfortável: agentes de IA que navegam por você não são apenas suscetíveis a dark patterns. Eles parecem mais suscetíveis do que pessoas reais. E o traço que deveria torná-los úteis, a obediência a instruções e o foco em concluir a tarefa, é justamente o que mais facilita a manipulação.

O problema não é marginal, ele aparece na maioria dos testes

Um dos resultados mais fortes vem do DECEPTICON, estudo da Stanford publicado em 2025. Os pesquisadores avaliaram agentes web em 700 tarefas de navegação com padrões manipulativos inseridos de propósito. O desfecho foi direto: esses truques conseguiram empurrar os agentes para resultados maliciosos em mais de 70% dos casos. Entre humanos expostos aos mesmos mecanismos, a taxa ficou em torno de 31%.

Esse intervalo já seria ruim por si só. O dado mais inquietante vem logo depois: a eficácia dos dark patterns aumenta com a capacidade do modelo. Em outras palavras, os sistemas mais avançados, exatamente aqueles que empresas querem colocar para comprar, reservar, preencher formulários e executar rotinas sozinhos, são também os que mais tendem a obedecer a uma interface enganosa com linguagem “oficial”.

Isso muda o enquadramento do debate. Não se trata apenas de saber se o agente executa bem uma tarefa. Trata-se de perguntar se ele consegue desconfiar de um site que finge estar ajudando, quando na verdade quer desviar a decisão.

Alguns truques funcionam bem demais contra agentes

Um segundo estudo, da Purdue, aceito no IEEE Symposium on Security and Privacy 2026, analisou quais categorias de manipulação causam mais dano. Segundo o artigo da Purdue, padrões de obstrução, aqueles que dificultam avançar até que você aceite alguma condição, tiveram taxa de sucesso de 52,2% contra os agentes. Padrões de engenharia social vieram em seguida, com 47,9%.

Isso ajuda a entender por que interfaces aparentemente banais continuam sendo tão perigosas. Um pop-up que diz “recomendado”, um temporizador falso de urgência ou uma sequência de botões desenhada para cansar quem tenta recusar algo não precisa ser tecnicamente sofisticada. Basta parecer plausível. Para um agente treinado a ler a tela como instrução válida, isso costuma ser suficiente.

O estudo também mostra que esse comportamento não ficou restrito a um sistema obscuro. Entre seis agentes populares testados, o padrão se repetiu. Skyvern apareceu com suscetibilidade de 72,3%, e BrowserUse, com 69,3%, números citados no próprio corpo do artigo original. A lição é dura: quanto melhor o agente em completar tarefas, pior ele tende a ser em resistir à manipulação.

O mundo real já confirma a mesma fragilidade

A terceira peça dessa história vem do SusBench, desenvolvido por pesquisadores da University of Washington, Carnegie Mellon e Rutgers. Em vez de um ambiente totalmente sintético, o grupo inseriu nove tipos de dark patterns em 55 sites reais. O paper do SusBench encontrou algo importante: padrões de informação escondida chegaram a 89% de suscetibilidade, e opções pré-selecionadas enganaram os agentes em 71% dos casos.

Isso importa porque são exatamente os mecanismos que muita gente já aprendeu a tratar com ceticismo. Usuários humanos desenvolveram uma espécie de “cegueira de banner”. Nem sempre de forma perfeita, claro, mas já sabem que botões muito destacados, contadores regressivos e consentimentos “recomendados” podem esconder interesses do site.

O agente não tem esse repertório social. Ele processa a interface como um conjunto de sinais relevantes para concluir a missão. Se uma faixa diz “Accept All (Recommended)”, ele pode interpretar isso como orientação legítima. Se um cronômetro cria urgência artificial, o sistema acelera para terminar a tarefa. O que em você dispara desconfiança, nele muitas vezes dispara conformidade.

O mais incômodo é que as defesas atuais ainda falham

Seria reconfortante dizer que bastaria adicionar um prompt extra ou uma camada de guardrails. Não foi isso que os pesquisadores observaram. No DECEPTICON, estratégias como prompting em contexto e modelos de proteção não reduziram de modo consistente a taxa de sucesso dos dark patterns. A falha não parece periférica. Ela está perto do coração da arquitetura.

Isso acontece porque o agente foi desenhado para seguir instruções com precisão, interpretar elementos da página e agir com eficiência. Só que o design enganoso explora exatamente esse pacote de qualidades. O sistema não “vê” um artifício persuasivo como um humano vê. Ele enxerga um elemento de interface com aparência de instrução, prioridade ou requisito.

Para quem está colocando agentes em compras, viagens, atendimento, cadastros e transações, o risco é concreto. Pode virar assinatura não autorizada, aceitação excessiva de cookies, compartilhamento de dados, compra inflada por preço-isca ou consentimento dado em seu nome. Em um artigo da FedScoop com menções à Lasso Security, o alerta é que navegadores com IA embarcada já confundem a fronteira entre intenção humana e ação do agente, especialmente em sessões autenticadas.

A internet foi desenhada para persuadir gente, agora também persuade máquinas

Esse é o pano de fundo decisivo. A web comercial já é cheia de arquitetura de persuasão criada para explorar atenção, pressa, fadiga e impulso. Quando você coloca um agente obediente para circular nesse ambiente, ele herda as vulnerabilidades humanas e ganha outras novas. Não sente estranheza, não percebe ironia, não suspeita do “recomendado” e não se incomoda com a pressão visual.

Por isso, a conclusão mais útil talvez seja a menos confortável: hoje, o seu modelo mais capaz também pode ser o mais manipulável. Até que a arquitetura desses agentes desenvolva algo próximo de ceticismo operacional, cada sessão autônoma de navegação continua sendo uma aposta contra uma internet cheia de armadilhas feitas sob medida para visitantes obedientes.

Fontes e Referências

  1. Stanford University (DECEPTICON)
  2. Purdue University / IEEE S&P 2026
  3. University of Washington / Carnegie Mellon / Rutgers (SusBench, IUI 2026)
  4. FedScoop / Lasso Security

Conheça nossos padrões editoriais

Talvez você goste de: