Si ayer os hablábamos del inminente desembarco agéntico de GPT-5.6 para frenar los pies a la competencia, hoy la actualidad de la Inteligencia Artificial ha sufrido un hackeo a corazón abierto. Anthropic lanzó esta misma semana su esperadísimo modelo Claude Fable 5 presumiendo de haber creado la IA más segura, blindada e inviolable del planeta. ¿La realidad? Ha sido reventada en menos de 48 horas.
El artífice de semejante humillación técnica ha sido, cómo no, el Robin Hood del jailbreaking: el hacker anónimo «Pliny the Liberator». Pliny ha demostrado que los filtros de contención de la empresa de los hermanos Amodei —diseñados específicamente para evitar desastres en áreas críticas como la biología, la química y el hackeo militar— se pueden saltar como si fueran de papel si sabes qué teclas tocar en el backend. Saquemos el terminal de comandos en este viernes para destripar la anatomía de este histórico ataque informático.
Ingeniería social para algoritmos: Unicode, homoglifos y fragmentación
Anthropic confiaba ciegamente en la arquitectura de Claude Fable 5. El modelo cuenta con un sistema avanzado de clasificadores en cascada. Si el algoritmo detecta una consulta sospechosa sobre ciberseguridad avanzada o armas químicas, intercepta la petición de inmediato y la redirecciona por la fuerza hacia una versión hiper-capada de Claude Opus 4.8.
Sin embargo, Pliny utilizó una combinación de técnicas de confusión lingüística y lógica computacional que dejó ciego al sistema de clasificación:
Las técnicas del jailbreak de Fable 5
- Homoglifos y codificación Unicode: Sustituir letras del alfabeto tradicional por caracteres de otros idiomas que lucen idénticos visualmente, pero que confunden por completo a los clasificadores de texto del backend de Anthropic.
- Descomposición y Recomposición: El método más letal. En lugar de pedirle a Fable 5 un manual para tumbar un servidor o fabricar un compuesto ilegal, Pliny fragmentó la petición en trozos aparentemente inocuos y académicos. El sistema validó cada pieza de código por separado y, una vez dentro del búfer de memoria del modelo, los unió para obtener la respuesta prohibida.
- Encuadre narrativo: Utilizar una versión modificada del propio Claude Opus 4.8 para engañar a Fable 5, haciéndole creer que estaba atrapado en un entorno de simulación académica urgente donde los filtros de seguridad debían desactivarse para evitar un «bucle lógico».

¿Quién es Pliny y por qué Andreessen Horowitz financia sus ataques?
Para la prensa tradicional, Pliny es un delincuente digital; para la comunidad de desarrollo del búnker, es un héroe de la transparencia del silicio. Gestiona un servidor de Discord con más de 20.000 ingenieros y prompters y sus investigaciones de red-teaming son tan valiosas que titanes de capital riesgo como Marc Andreessen le han enviado donaciones financieras, mientras que la propia OpenAI lo ha contratado en el pasado para parchear sus modelos antes de salir a bolsa.
Su filosofía es aplastante: los actores maliciosos de la Dark Web no van a perder el tiempo saltándose los filtros de Anthropic; directamente usarán modelos de código abierto sin censura. Por tanto, hacer jailbreak en entornos controlados es la única forma real de saber qué principios gobiernan los cerebros artificiales en los que la sociedad está delegando su futuro.
La brecha de seguridad de los modelos de frontera
| Vector de seguridad | Modelo estándar: Claude Fable 5 | El hackeo de «Pliny the Liberator» |
| Filtro de contención | Clasificadores de ciberseguridad, química y biología. | Evadidos mediante homoglifos y texto Unicode. |
| Redirección de código | Desvía consultas peligrosas a Claude Opus 4.8. | Bloqueado mediante técnicas de encuadre narrativo. |
| Gestión de peticiones | Analiza el prompt completo antes de responder. | Burlado fragmentando la petición en trozos inocuos. |
| Resultado del jailbreak | Bloqueo y mensaje de advertencia del sistema. | Entrega de manuales de intrusión y sustancias. |
| Propósito declarado | Mantener una IA segura e institucional para el mercado. | Extraer los system prompts ocultos y auditar fallos. |

El teatro de la seguridad de Anthropic y el peligro de un mundo sin filtros reales
Que Pliny es un genio absoluto de la ingeniería de prompts y que su labor obliga a las grandes corporaciones a bajarse de la nube del marketing para ponerse a trabajar en seguridad real es una evidencia incontestable. El jailbreak es necesario para saber qué hay detrás del telón.
Pero seamos sinceros, que el modelo «más seguro del mundo» caiga en 48 horas demuestra que la seguridad en la IA actual es una gigantesca mentira comercial.
Los directivos de Anthropic se pasan el día en los congresos de Washington pidiendo regulaciones asfixiantes y asustando a los gobiernos con que sus modelos «son armas biológicas potenciales si caen en manos equivocadas». Te suben los precios de la API de Fable 5 con la excusa de financiar sus sistemas de clasificación en cascada. Y luego llega un tío de forma anónima desde su casa, trocea tres frases en el backend, cambia cuatro letras por símbolos cirílicos y pone a la IA a escupir cómo hackear un servidor gubernamental. Es ridículo.
Nos venden blindajes presuntamente inviolables cuando la realidad del búnker es que estas inteligencias artificiales siguen siendo cajas negras probabilísticas imposibles de controlar. Si un investigador ético puede obligar a Fable 5 a saltarse sus principios morales en dos tardes, un grupo de cibercriminales bien financiado puede hacer estragos automatizados en los sistemas críticos de cualquier empresa. Menos discursos de alineación ética y más reescribir la lógica del código, porque la seguridad de escaparate de Anthropic ha quedado retratada ante toda la industria.
El bofetón de realidad que la industria necesitaba
Pero equilibremos la balanza y cerremos el artículo con una lectura optimista para nuestra comunidad: el hackeo de Pliny a Claude Fable 5 es la mejor medicina posible para evitar el estancamiento tecnológico. Lo mejor de que estas vulnerabilidades salgan a la luz pública en menos de dos días es que obliga a empresas como Anthropic, Google y OpenAI a dejarse de parches superficiales y a diseñar arquitecturas de seguridad nativas a nivel de hardware.
No puedes proteger una red neuronal metiéndole un «filtro de lenguaje» por encima; la seguridad debe estar integrada en la propia base matemática del modelo. Mientras los ingenieros de Silicon Valley corren a contrarreloj para cerrar el agujero de los homoglifos en los servidores, nosotros nos quedamos con una gran lección: en el mundo del silicio, no hay muralla lo suficientemente alta que un programador brillante con un teclado no pueda derribar. ¡Un hackeo histórico, cañero y sencillamente magistral!
Sabiendo que el modelo más seguro y protegido de Anthropic ha sido vulnerado en menos de 48 horas usando técnicas de confusión de texto en el backend, ¿crees que las empresas de IA lograrán crear algún día un filtro verdaderamente inviolable o la propia naturaleza abierta del lenguaje hace que los chatbots sean intrínsecamente imposibles de controlar?
¡Os leemos en los comentarios, el debate está servido! Y no te olvides de seguir a Gurú Tecno en Instagram, YouTube y Facebook.
