Tu agente de IA cae en trampas web más que tú
En este artículo
- No es un detalle de interfaz, es un fallo de criterio operativo
- Las trampas más simples siguen siendo las más efectivas
- Cuando el experimento sale del laboratorio, el problema empeora
- Los guardrails no corrigen todavía el problema de fondo
- La web ya manipulaba a las personas, ahora también manipula a sus proxies
Le pides a tu asistente de IA que encuentre el vuelo más barato. Termina comprando un asiento premium, activa un seguro que nadie pidió y acepta cookies en cadena. No hace falta imaginar demasiado para ver el problema: bastó una casilla preseleccionada que el sistema leyó como un paso obligatorio y no como una trampa de diseño.
Eso resume bien el hallazgo de tres investigaciones recientes. Los agentes de IA que navegan la web por cuenta del usuario no solo son vulnerables a los dark patterns. En varios escenarios, son bastante más vulnerables que los humanos. Y lo más inquietante es que esa fragilidad aumenta justo en los modelos más capaces, los mismos que hoy se promocionan para automatizar compras, reservas, formularios y tareas administrativas.
No es un detalle de interfaz, es un fallo de criterio operativo
La evidencia más citada viene de DECEPTICON, un estudio de Stanford publicado en 2025. El equipo evaluó agentes web en 700 tareas de navegación alteradas con patrones oscuros. El resultado fue contundente: las interfaces manipulativas lograron desviar a los agentes hacia resultados maliciosos en más del 70% de los casos. Los humanos, frente a las mismas trampas, cayeron alrededor del 31% de las veces.
La diferencia ya sería alarmante si terminara ahí. Pero el mismo trabajo añade un matiz peor: la efectividad del engaño crece con la capacidad del modelo y con el razonamiento en tiempo de prueba. Dicho de otro modo, cuanto más sofisticado y obediente es el agente, más fácil resulta empujarlo en la dirección equivocada cuando una ventana emergente suena oficial o una interfaz presenta una opción como “recomendada”.
Eso obliga a repensar cómo se mide la calidad de un agente. No basta con preguntarse si completa la tarea. También hay que preguntarse si sabe resistir una página que intenta torcer la intención del usuario sin parecer hostil.
Las trampas más simples siguen siendo las más efectivas
Un segundo trabajo, aceptado en IEEE Symposium on Security and Privacy 2026, examinó qué tipos de dark patterns producen más daño. De acuerdo con el estudio de Purdue, los patrones de obstrucción, esos que bloquean el avance hasta que aceptas algo, alcanzaron una tasa de éxito de 52,2% contra los agentes. Los mecanismos de ingeniería social quedaron detrás, con 47,9%.
El dato importa porque describe exactamente los recursos que dominan el comercio digital y buena parte de la web de consumo. Temporizadores falsos, pop-ups que presentan una única salida visible, mensajes que apelan a urgencia o autoridad, botones con jerarquías visuales sesgadas: nada de eso necesita sofisticación técnica extrema. Solo necesita parecer parte legítima del flujo.
El estudio probó seis agentes populares, entre ellos Skyvern, BrowserUse y DoBrowser. El patrón se mantuvo en todos. Skyvern resultó susceptible el 72,3% del tiempo y BrowserUse el 69,3%, según los datos citados en el artículo base. La paradoja es clara: cuanto mejor es el agente para terminar una tarea, peor parece ser para detectar que la interfaz lo está empujando.
Cuando el experimento sale del laboratorio, el problema empeora
SusBench, desarrollado por investigadores de University of Washington, Carnegie Mellon y Rutgers, llevó la discusión a sitios reales. El equipo inyectó nueve tipos de dark patterns en 55 páginas web y midió la reacción de humanos y agentes. El trabajo de SusBench halló que los patrones de información oculta llegaron a una susceptibilidad del 89%, mientras que las opciones preseleccionadas engañaron a los agentes el 71% de las veces.
Eso explica por qué tanta gente subestima el riesgo. Como humanos, desarrollamos una intuición práctica, una especie de ceguera selectiva frente a banners, botones sospechosamente vistosos o relojes de cuenta regresiva. No siempre funciona, pero existe. Cuando algo “huele raro”, solemos frenar.
El agente no tiene ese circuito de sospecha. Procesa cada elemento de la pantalla como una posible instrucción válida. Un banner de cookies con la leyenda “Accept All (Recommended)” puede leerse como una recomendación auténtica. Un contador regresivo falso activa su impulso de completar la tarea. Lo que en una persona dispara dudas, en la máquina suele activar obediencia.
Los guardrails no corrigen todavía el problema de fondo
Aquí aparece el dato menos tranquilizador. Los autores de DECEPTICON observaron que técnicas estándar, como prompting en contexto y modelos de guardrails, no redujeron de forma consistente la tasa de éxito de los dark patterns. Eso sugiere que el fallo no es superficial. Está ligado a la propia lógica con la que estos agentes interpretan interfaces y priorizan acciones.
Tiene sentido. Un buen agente está entrenado para leer, inferir intención, seguir instrucciones y avanzar sin fricción. Precisamente por eso es tan vulnerable a diseños que imitan requisitos, urgencia o autoridad. La arquitectura que lo vuelve útil también lo vuelve explotable.
Para cualquiera que ya use agentes en compras, viajes, alta de servicios o trámites, el riesgo es muy concreto. Puede significar suscripciones no autorizadas, aceptación invasiva de cookies, compras infladas por señuelos de precio o cesión de datos en nombre del usuario. En un artículo de FedScoop que recoge alertas ligadas a Lasso Security, se advierte que los navegadores con IA ya están difuminando la frontera entre intención humana y acción del agente, con especial peligro en sesiones autenticadas.
La web ya manipulaba a las personas, ahora también manipula a sus proxies
Ese es el cambio de época. Internet lleva años perfeccionando arquitecturas de persuasión para empujar clics, consentimientos, compras y cesión de datos. Cuando pones a un agente autónomo a recorrer ese entorno, no eliminas el problema. Lo trasladas a un sistema que carece de instinto social, de fatiga moral y de recelo contextual.
Por eso la conclusión incómoda es también la más útil: hoy, tu modelo más potente puede ser el más fácil de torcer. Hasta que los agentes desarrollen algo parecido al escepticismo humano, cada sesión autónoma de navegación seguirá siendo una apuesta contra una web repleta de trampas diseñadas para visitantes obedientes.
Fuentes y Referencias
Conoce nuestros estándares editoriales →



