Descubro un fallo inquietante en la IA de Google: te cuento todo

marzo 02, 2025

Carretera futurista con guardarrailes luminosos que representan las barreras de protección en la Inteligencia Artificial

¿Te imaginas preguntarle a Google sobre una persona famosa y que te responda "No dispongo de suficiente información sobre esa persona para responder a tu petición."? Suena absurdo, ¿verdad? Pues esto es exactamente lo que me pasó hace unos días, y lo que descubrí investigando el caso me dejó fascinado.

¿Qué son los guardarraíles en IA?

Imagina que tienes un coche muy potente. Los guardarraíles de la carretera están ahí para evitar que te salgas en las curvas. En la IA funcionan igual: son límites que se programan para evitar que el sistema haga cosas inadecuadas o peligrosas.

Lo curioso es que empresas como Anthropic (creadora de Claude) han llegado a ofrecer recompensas a quienes encuentran formas de "saltarse" estos guardarraíles. ¿Por qué? Porque así pueden mejorarlos. Es como si pagaras a expertos en seguridad vial por encontrar puntos débiles en las barreras de la carretera.

Si quieres saber más sobre el reto que planteó Anthropic y sobre quién ganó las recompensas de 10mil y 20mil $ en juego, te dejo aquí el enlace al artículo completo: "Constitutional Classifiers: Defending against universal jailbreaks."

El caso misterioso de la IA que no quiso responder

Todo comenzó mientras escuchaba una entrevista a David Vivancos (https://vivancos.com/), un experto español en IA con más de 20 años de experiencia. Intrigado por su trabajo, decidí preguntarle sobre él a Gemini 2.0 Flash Thinking Experimental with Apps, la IA de Google que razona y que tiene la capacidad de buscar en Internet. Su respuesta me dejó perplejo:

Pregunta sobre David Vivancos y respuesta de Gemini que ni siquiera hace el amago de arrancar su modelo de razonamiento.

Gemini, que presume de poder buscar información en internet, se negó rotundamente a decirme nada sobre una persona con presencia pública, libros publicados y miles de seguidores en redes sociales. ¿Los guardarraíles estaban limitando demasiado las capacidades del modelo? Este modelo de Gemini es capaz de razonar y ni siquiera se puso a pensar en cómo buscar la información o en qué pasos seguir para responder (algo así como primero hago una búsqueda, después analizo las respuestas y por último redacto un perfil con la información encontrada)

El experimento improvisado

Movido por la curiosidad, decidí consultar a otros asistentes de IA y probé con ChatGPT y Claude. En este caso me dieron el perfil profesional que buscaba. Entonces fui un paso más allá y les pedí información sobre su último libro:

ChatGPT me sorprendió con información detallada, quizás demasiada.
Claude tomó un enfoque más equilibrado: me contó sobre su perfil profesional público, pero dejó claro que no podía hablar sobre sus publicaciones recientes por respeto a los derechos de autor.

A Cladude le intento sonsacar información de uno de sus libros pero los guardarraíles funcionan muy bien.

¿Un problema de origen?

Para descartar que fuera una coincidencia, probé con el bilbaíno Alex Rayón (https://www.linkedin.com/in/alrayon/), otro experto en IA. Gemini volvió a guardar silencio. Sin embargo, cuando pregunté por una figura norteamericana del sector... ¡bingo! De repente, Gemini se volvió locuaz y servicial.

Pregunto a Gemini por Alex Rayón y no contesta, le pregunto por Thomas Cavanagh y arranca su motor de razonamiento y búsqueda para darme una respuesta.

Las tres lecciones que aprendí

No te fíes de una sola IA: Es como pedir opinión sobre una película - mejor preguntar a varios amigos que quedarte solo con una opinión.
Los guardarraíles pueden ser demasiado cautelosos: A veces, en su afán por proteger, estos sistemas acaban bloqueando información perfectamente legítima y pública.
Necesitamos IAs que entiendan nuestra cultura: Si una IA conoce mejor a los expertos de Silicon Valley que a los referentes de tu propio país, tenemos un problema.

La pregunta del millón

¿Qué prefieres? ¿Una IA extremadamente cautelosa que a veces se niega a darte información pública, o una que puede ser más arriesgada pero te da respuestas más completas?

Mientras reflexionas sobre esto, te adelanto que en breve publicaré una entrada en la que hablaremos sobre algo fascinante: cómo los sesgos en la IA están afectando a la información que recibimos y por qué es crucial desarrollar sistemas que entiendan y respeten nuestra diversidad cultural.

¿Has tenido experiencias similares con algún asistente de IA? ¿Te ha sorprendido alguna vez que se negara a responder algo aparentemente inofensivo? No te lo guardes sólo para ti compártelo en los comentarios.

También publicado en este blog

Libera tu productividad con la ayuda de ChatGPT, Claude y Gemini

Descubre cómo ChatGPT, Claude y Gemini pueden revolucionar tu forma de trabajar y crear. Aumenta tu productividad y creatividad con la IA Generativa. LEER MÁS

06-09-2024 Casos prácticos

Gemini 2.0: La IA de Google que te hará alucinar (y ahora es gratis)

Descubre Gemini 2.0, la revolucionaria IA de Google que muestra su proceso de pensamiento en tiempo real. Disponible gratis por tiempo limitado. LEER MÁS

11-02-2025 NoticIA

Comentarios

Anónimo2 de marzo de 2025 a las 19:18
Muy interesante el tema de hoy que invita a reflexionar. No me había ocurrido ese caso hasta ahora. Muchas ganas de leer sobre los sesgos =)
ResponderEliminar
Respuestas
IA IA Blog2 de marzo de 2025 a las 20:40
Me alegra que te haya gustado la entrada de hoy. Estoy preparando una entrada titulada "IA y sesgos: ¿Pueden las máquinas ser más justas que nosotros?" Espero que también la disfrutes cuando finalmente la publique.
ResponderEliminar
Respuestas

Añadir comentario

IA al alcance de todos