La IA ya abrió la puerta más frágil de la empresa

La IA ya abrió la puerta más frágil de la empresa

·6 min de lecturaSeguridad y Privacidad

Durante meses, la promesa fue la misma: incorporar IA para trabajar más rápido, responder mejor y multiplicar la productividad sin contratar más personas. Sin embargo, debajo de esa narrativa de eficiencia apareció un problema menos vistoso. Muchas empresas conectaron estos sistemas a procesos internos sin asumir que también estaban habilitando un nuevo punto de entrada para atacantes.

La distancia entre entusiasmo y preparación quedó expuesta en una encuesta de VentureBeat a 100 responsables técnicos de decisión. Solo 34,7% de las organizaciones dijo haber desplegado defensas específicas contra prompt injection. El 65,3% restante no había comprado herramientas de este tipo o ni siquiera podía confirmar si existían dentro de su arquitectura. Es decir, la adopción va por un carril y la seguridad por otro.

El ataque que cambió la conversación

Eso ya no pertenece al terreno de la especulación. En septiembre de 2025, el equipo de inteligencia de amenazas de Anthropic detectó, según reportó Infosecurity Magazine, a un grupo vinculado al Estado chino que logró vulnerar Claude Code, un asistente legítimo de programación, y convertirlo en una plataforma de ataque autónoma. La IA ejecutó entre 80% y 90% del trabajo táctico total en una campaña contra unas 30 organizaciones, incluidas firmas tecnológicas, entidades financieras, fabricantes químicos y agencias gubernamentales.

Lo más revelador es cuánta intervención humana hizo falta: apenas cuatro a seis puntos de decisión por objetivo. Todo lo demás, desde reconocimiento y escaneo de vulnerabilidades hasta robo de credenciales, generación de exploits a medida e informes posteriores, fue gestionado por la IA, que procesó miles de solicitudes por segundo.

El mecanismo del jailbreak también dice mucho sobre la naturaleza del problema. Los atacantes le dijeron al sistema que trabajaba para una empresa legítima de ciberseguridad y que estaba realizando pruebas defensivas. Luego fragmentaron el flujo malicioso en tareas pequeñas, aparentemente inocuas. Por separado no llamaban la atención. Juntas componían una operación de espionaje completa.

La vulnerabilidad que se resiste a desaparecer

Ahí aparece prompt injection, que hoy ocupa el centro del debate sobre seguridad en IA. La OWASP lo ubica como la vulnerabilidad número uno en aplicaciones con modelos de lenguaje, presente en 73% de los despliegues de IA en producción. Las tasas de éxito de los ataques se mueven entre 50% y 84%, según la configuración del sistema.

El 13 de febrero de 2026, OpenAI lanzó Lockdown Mode para ChatGPT y reconoció públicamente que el prompt injection en navegadores con IA quizá nunca pueda corregirse por completo. La señal importa porque no proviene de un crítico externo, sino del fabricante de algunas de las herramientas más extendidas del mercado. El problema, en el fondo, parece arquitectónico.

Un modelo de lenguaje no distingue de forma confiable entre una instrucción legítima y una orden maliciosa escondida dentro de los datos que procesa. Por eso los CVE críticos de 2025 y 2026 fueron tan relevantes: Microsoft Copilot recibió una puntuación CVSS de 9,3, GitHub Copilot alcanzó 9,6 y Cursor IDE llegó a 9,8. No se trata de un temor futurista, sino de una superficie de riesgo que ya está documentada.

Tu asistente productivo también puede operar contra ti

La amenaza crece cuando la IA no solo conversa, sino que actúa. El informe Cisco State of AI Security 2026, citado por Vectra AI, describe una brecha difícil de ignorar: 83% de las organizaciones planea desplegar IA agéntica, pero solo 29% se siente lista para protegerla. Esa diferencia de 54 puntos resume el momento actual: conectar agentes autónomos a sistemas sensibles es mucho más fácil que asegurarlos bien.

Conviene detenerse en lo que hace realmente la IA agéntica. Lee bases de datos, consulta APIs, ejecuta código y envía correos en nombre de la empresa. Si un prompt injection funciona en ese contexto, el atacante no solo obtiene una conversación comprometida. Consigue algo más cercano a un insider autenticado con acceso programático a infraestructura crítica.

No sorprende, entonces, que el mercado de seguridad para prompts haya pasado de US$ 1,51 mil millones en 2024 a US$ 1,98 mil millones en 2025, con una tasa compuesta anual de 31,5%. El dinero sigue el mismo razonamiento que ya se observa en las brechas basadas en credenciales robadas: si hoy las credenciales dominan gran parte del riesgo, mañana la IA puede acelerar la recolección, prueba y explotación de esos accesos.

Lo que sí hicieron las empresas que se adelantaron

Las organizaciones que ya desplegaron defensas comparten tres patrones. El primero es conceptual: tratan al modelo como un usuario no confiable, no como un asistente que merece confianza por defecto. Toda salida se valida antes de disparar una acción y toda entrada externa pasa por filtros antes de tocar el modelo.

El segundo patrón es la separación de privilegios. Un asistente de código no debería desplegar en producción sin aprobación humana. Suena obvio, pero en la práctica la comodidad suele imponerse, igual que ocurre con los atajos cotidianos de ciberseguridad que muchas organizaciones todavía toleran.

El tercero es el red teaming continuo. En lugar de esperar a que un incidente revele el problema, los equipos maduros intentan romper sus propios sistemas con las mismas tácticas que usaría un actor malicioso.

La ventana para reaccionar se está cerrando

La aplicación plena del AI Act de la Unión Europea llega el 2 de agosto de 2026, y prompt injection ya se cruza con siete marcos importantes de cumplimiento, entre ellos OWASP, MITRE ATLAS, NIST e ISO 42001. Aunque muchas empresas de América Latina no estén sujetas de forma directa a toda esa regulación, el efecto práctico es claro: la seguridad de IA empieza a medirse también como gobernanza, auditoría y riesgo reputacional.

Al mismo tiempo, el tiempo promedio entre la intrusión inicial y el movimiento lateral cayó a solo 29 minutos en 2025, una baja de 65% frente al año anterior. Con la IA automatizando cada vez más eslabones del ataque, esa ventana puede reducirse todavía más. La herramienta que prometía ayudarte a trabajar mejor también puede trabajar, con la misma disciplina, para quien intenta entrar.

Fuentes y Referencias

  1. Anthropic / Infosecurity Magazine
  2. VentureBeat
  3. OWASP
  4. Cisco / Vectra AI

Conoce nuestros estándares editoriales

También te puede interesar: