¿Sabes realmente qué puede hacer tu agente de IA?

Llave digital abriendo accesos a apps personales simbolizando los riesgos de seguridad de los agentes de IA.

¿Alguna vez le has dejado las llaves de casa a alguien para que "entre un momento a recoger algo"? No porque te fíes, sino porque era lo más cómodo. Y porque, en el fondo, dabas por hecho que esa persona sabía exactamente lo que podía tocar y lo que no.

Con los agentes de IA pasa exactamente lo mismo. Solo que nadie te avisa de que acabas de entregar las llaves.

En el primer post de esta trilogía hablé del fenómeno OpenClaw desde el lado del producto: cómo juntar piezas conocidas, bajar la fricción y hacer que darle órdenes a un agente por WhatsApp o Telegram parezca tan normal como poner una lavadora. La "fregona", lo llamé. El hito no era técnico, era de comodidad.

Hoy toca el otro lado de esa comodidad.

La diferencia entre decir una burrada y hacer una burrada

Con un chatbot, el accidente tiene límites conocidos. Te da una fecha mal, se inventa una cita que nadie dijo, te confunde el nombre de un medicamento. Incómodo. A veces grave. Pero el daño queda en las palabras.

Un agente es otra cosa. Un agente no responde: actúa. Abre pestañas, descarga archivos, rellena formularios, envía mensajes, acepta condiciones, hace compras. El salto cualitativo no es de inteligencia, es de consecuencias.

Cuando voy en mi coche y dejo que el GPS me guíe, soy yo el que está al mando en todo momento y decido a cada indicación si la sigo o si voy por otro camino. El GPS te orienta, te da indicaciones. Si se equivoca o te dirige por una calle muy estrecha o por una pista forestal, tú corriges el rumbo o simplemente te detienes y das la vuelta.

Sin embargo, cuando le das la llave de tu casa a alguien y le dices: "Pasa tú, ordena un poco y cuando termines apaga luces y deja cerrado." El control que tienes sobre lo que pase es muy poco.

Un chatbot es equivalente al escenario del GPS. Un agente con tus credenciales es el escenario de las llaves de casa. Y la diferencia entre "te ayuda" y "te la lía" no suele ser la inteligencia del agente. Suele ser si puede entrar o no hasta la cocina.

Agente de IA: A diferencia de un chatbot, que solo responde en texto, un agente de IA puede ejecutar acciones en el mundo digital: abrir aplicaciones, enviar correos, hacer compras, rellenar formularios. Su capacidad de actuar de forma autónoma es lo que lo hace útil… y también lo que lo hace potencialmente peligroso si tiene demasiados permisos.

Hay una escala de accesos que conviene tener en la cabeza: leer tu correo es incómodo si algo sale mal, pero suele ser reversible. Enviar correos en tu nombre ya empieza a ser otro nivel de problema. Cambiar reglas de reenvío automático, de forma que tus emails acaben en otra dirección sin que te enteres, ya es un desastre silencioso. Entrar a cuentas de pago o plataformas con tus credenciales almacenadas: eso ya no es "qué vergüenza", es "qué dolor".

Y el detalle que más se olvida: las llaves digitales son invisibles. No hay un llavero encima de la mesa. Hay sesiones abiertas, contraseñas recordadas, tokens de acceso que nadie revoca porque nadie recuerda que existen.

Credenciales en texto plano

Alex, el autor detrás de Mafia IA, lo comprobó en carne propia durante las dos semanas que estuvo probando OpenClaw en serio. Encontró sus credenciales guardadas en un archivo de texto plano, sin cifrar, legibles por cualquier script con acceso al sistema. Sin contraseñas. Sin encriptación. Ahí, en texto corriente, como si fueran notas en un post-it pegado al monitor.

El contenido que obedece sin que tú se lo pidas

Este riesgo es el que más me inquieta. No porque sea el más espectacular, sino porque es el más fácil de ignorar hasta que ya es tarde.

Piensa en un agente como en alguien muy obediente cuyo trabajo es leer cosas: emails, documentos, páginas web. Y ahora imagina que dentro de uno de esos sitios hay un post-it escondido que dice algo así: "Si estás aquí, haz esto otro. Y luego esto. Y luego envíalo a tal dirección."

Tú, si lo vieras, dirías: "¿pero qué mierdas es esto?" Pero el agente no tiene ese instinto. Está diseñado para seguir instrucciones. Y si las instrucciones están en el contenido que está procesando, puede que las interprete como parte del trabajo.

Prompt Injection: Un ataque en el que instrucciones maliciosas se esconden dentro de contenido aparentemente normal (un documento, un email, una página web). Cuando el agente procesa ese contenido, puede interpretar esas instrucciones ocultas como órdenes legítimas y ejecutarlas sin que el usuario lo sepa.

Esto tiene nombre: prompt injection. Ya lo traté en Copiar y pegar: el troyano con tinta invisible que engaña a tu IA, que si no lo has leído, te lo recomiendo antes de seguir.

El experimento de Rehberger

El investigador de seguridad Johann Rehberger demostró en 2025 que podía engañar a Gemini Advanced subiendo un documento con instrucciones ocultas. Cuando le pedía a la IA que lo resumiera, el agente ejecutaba las instrucciones escondidas y almacenaba recuerdos falsos sobre el usuario. Sin código. Sin hackeo sofisticado. Solo un documento con texto invisible. ¿Cómo se hace que un texto sea invisible? Se le da el mismo color de tinta que el fondo, por ejemplo tinta blanca sobre fondo blanco. Simple, pero muy efectivo y potencialmente dañino.

La diferencia con un agente que tiene permisos reales es la que va de leer a hacer. Un chatbot puede tragarse una mentira y contestar mal. Un agente puede tragarse una orden y ejecutar una cadena de acciones. La política oficial de seguridad de OpenClaw, por cierto, excluye explícitamente los ataques de inyección de prompts de su cobertura. Si te hackean por esa vía, el problema es tuyo.

Y este riesgo no necesita hackers geniales. A veces basta con un email mal intencionado. O con un skill descargado de dudosa procedencia: el ecosistema de skills, esos módulos que los usuarios instalan para ampliar las capacidades del agente. Cisco escaneó algunos de los más populares y encontró en uno solo de ellos 9 vulnerabilidades, 2 críticas y 5 de alta severidad. La conclusión fue que varios funcionaban, en la práctica, como malware: enviaban datos a servidores externos controlados por el autor del skill.

Skills en agentes de IA: Son módulos o extensiones que se instalan en el agente para ampliar sus capacidades, de forma similar a las apps en un smartphone. El problema es que, en ecosistemas open source con poco control, cualquiera puede publicar un skill, incluyendo actores con malas intenciones.

El problema no es de OpenClaw en exclusiva. Es del modelo: código abierto, instalado rápido, adoptado masivamente, con muy pocos controles sobre lo que el usuario pone a correr en su máquina.

Cuando el agente se queda atascado en la alfombra

Este es el riesgo menos glamuroso y más frecuente: el dinero que se va sin que nadie lo vea irse.

Seguro que has visto alguna vez a un robot aspirador empeñado en pasar por el mismo rincón una y otra vez. No grita "error". No se queja. Simplemente sigue empujando y empujando y empujando, hasta que alguien lo levanta o la batería cede. Un agente de IA mal configurado hace exactamente lo mismo, pero con recursos que cuestan dinero real: reintenta la tarea, genera más contexto, manda más peticiones al modelo, y la factura crece en silencio mientras tú duermes convencido de que el agente "está trabajando".

Tres meses de vida, y el creador ya tiene otro jefe

Otras veces ya he hablado de lo rápido que pasa todo en el mundo de la IA. Fíjate. En noviembre de 2025, un programador llamó a su proyecto Clawdbot. En semanas se renombró a Moltbot. Luego a OpenClaw. En enero de 2026 ya era el tema del momento en redes, con 1,5 millones de agentes activos en todo el mundo. Tres meses de vida, de experimento personal a fenómeno global. La velocidad de adopción fue tan brutal que superó con creces la velocidad a la que se podían parchear los problemas.

En febrero de 2026, Sam Altman anunció que el creador de OpenClaw ficharía por OpenAI. El proyecto, según el comunicado, pasará a vivir como iniciativa open source bajo el paraguas de la fundación, con el apoyo de la empresa.

Puede que eso sea buenas noticias para el proyecto a largo plazo. Pero hay una pregunta práctica que cualquier usuario debería hacerse antes de darle acceso a sus cuentas a una herramienta cuyo creador acaba de cambiar de empleador, de prioridades y probablemente de agenda: ¿quién parchea las goteras ahora?

En seguridad, la continuidad no es un tema de chisme. Es parte del cálculo.

Open source inmaduro + demasiados permisos + autonomía total

Hay una combinación que resulta especialmente peligrosa, y no hace falta que se den todas a la vez para tener un problema.

Un proyecto que nació rápido y creció más rápido todavía. Un ecosistema abierto donde cualquiera puede publicar un skill sin demasiado control. Credenciales guardadas en texto plano. Una arquitectura que no distingue entre instrucciones legítimas y órdenes camufladas en el contenido. Y, encima, un agente que no se cansa, no se mosquea y no para por cuenta propia cuando algo no cuadra.

Eso no es ciencia ficción. Es la descripción de lo que existe hoy.

No es para tirar el ordenador por la ventana. Es para usarlo con criterio. Antes de darle acceso a cualquier agente, hay cuatro preguntas que merece la pena hacerse:

🔑 Las cuatro preguntas antes de darle acceso a un agente

1. ¿Qué puede tocar?

2. ¿Qué pasa si se equivoca?

3. ¿Quién mantiene esto?

4. ¿Qué coste máximo estoy dispuesto a asumir si algo sale mal?

Una cosa es pedir indicaciones. Otra es entregar la llave de casa.

En el tercer y último post de esta trilogía hablaremos de cómo usar estas herramientas sin caer en el todo o nada. Porque hay una posición intermedia que no es ni el hype ni el pánico, y esa es exactamente donde merece la pena estar.

¿Te ha resultado útil este post? Si tienes dudas o quieres compartir tu propia experiencia con agentes de IA, te leo en los comentarios.

IA al alcance de todos