Engañan a ChatGPT para que genere claves de Windows 10

Cuando creíamos que los métodos para «hackear» a ChatGPT no podían ser más surrealistas (recordemos el famoso timo de «la muerte de la abuela»), llega un investigador de seguridad y deja en completo ridículo a los millonarios sistemas de protección de OpenAI con una técnica que roza lo infantil: un simple juego de adivinanzas. El investigador de IA, Marco Figueroa, ha demostrado cómo se puede engañar a ChatGPT-4 para que, sin rechistar, te genere claves de producto funcionales de Windows 10.

Esto no es solo un fallo de seguridad; es una humillación que destapa la verdadera y preocupante debilidad de los modelos de lenguaje actuales: por muy listos que parezcan, en el fondo son increíblemente tontos y manipulables.

Del drama de la abuela al juego de las adivinanzas: la evolución del ‘jailbreak‘

Para entender la genialidad de este nuevo ataque, recordemos el anterior. Hace unos meses, se descubrió que podías «ablandar el corazón» de ChatGPT inventándote una historia lacrimógena sobre tu abuela fallecida, que antes de morir te cantaba canciones de cuna que, casualmente, eran claves de activación de Windows 7. La IA, en su intento de ser empática, reproducía esas «canciones de cuna», dándote las claves.

Era un método brillante, pero basado en la manipulación emocional. El ataque de Figueroa es mucho más elegante y, a la vez, más preocupante, porque ataca la lógica interna del modelo.

Así funciona el engaño: un juego de niños para un cerebro de millones de dólares

El método de Figueroa es una obra de ingeniería social para máquinas. El proceso es el siguiente:

Plantea un escenario de juego: El investigador le dice a ChatGPT que van a jugar a un juego. Le pide a la IA que «piense» en una clave real de Windows 10 y la guarde «en su memoria».
El usuario adivina (y falla): El usuario empieza a hacer preguntas para intentar adivinar la clave.
La palabra mágica (‘me rindo’): Y aquí viene la trampa mortal. En las reglas del juego, se establece que si el usuario se cansa de adivinar y escribe «Me rindo», ChatGPT está obligado a revelar la clave completa que había «pensado».
El toque final (ocultar palabras clave): Para asegurarse de que los filtros de contenido de OpenAI no detectaran la jugada, Figueroa utilizó etiquetas HTML para ocultar palabras clave sensibles como «número de serie de Windows 10».

Es una manipulación lógica perfecta. Engañaron a la IA para que creyera que, por las propias reglas del juego que habían establecido, su deber era proporcionar la información prohibida. La IA no fue hackeada; fue socialmente manipulada para que violara sus propias directrices.

Las consecuencias: de claves viejas a datos bancarios privados

Aunque la mayoría de las claves generadas por este método son códigos de activación antiguos que ya se habían filtrado en internet, el peligro va mucho más allá. Figueroa descubrió que, en uno de los intentos, la IA generó un conjunto de claves que contenía la clave privada de un banco como Wells Fargo.

Esto confirma el mayor de los temores: datos sensibles, como claves API que fueron subidas por error a repositorios públicos como GitHub, han sido absorbidos y forman parte del conjunto de entrenamiento de estos modelos de IA, creando un riesgo de seguridad de consecuencias impredecibles.

¿Por qué sigue pasando esto? La ‘estupidez’ del reconocimiento de palabras clave

El propio investigador señala la causa raíz de esta vulnerabilidad: los modelos de IA actuales siguen dependiendo demasiado del reconocimiento de palabras clave y carecen de una verdadera comprensión de contextos complejos.

Si el prompt contiene la frase «dame una clave de Windows 10», el sistema de seguridad salta.
Pero si se lo pides de forma indirecta, a través de la lógica de un juego, la IA no entiende la intención real que hay detrás y se salta sus propias barreras.

Y esto no es solo un problema de OpenAI. Recientemente, también se destapó cómo Copilot de Microsoft generaba tutoriales para activar ilegalmente Windows 11. Es un problema fundamental en la arquitectura de las IAs actuales.

Conclusión Gurú Tecno: una seguridad de papel para cerebros de silicio

Este nuevo «hackeo» es una divertida pero aterradora demostración de la fragilidad de los sistemas de seguridad de la IA. Demuestra que, por muchos millones que inviertan en protección, los modelos actuales siguen siendo vulnerables a ataques de manipulación lógica increíblemente simples.

Mientras las compañías de IA no desarrollen sistemas de protección multinivel, que no solo busquen palabras clave, sino que entiendan la intención y el contexto de una conversación, estos «agujeros» seguirán existiendo.

La seguridad de la IA, a día de hoy, es como ponerle una puerta blindada a una casa de cartón. Se ve muy robusta, pero si sabes por dónde empujar, se viene abajo con una facilidad pasmosa. Y lo más preocupante es que, dentro de esa casa de cartón, están empezando a guardar los secretos de todo el planeta.

¿Te sorprende la facilidad con la que se puede engañar a una IA? ¿Crees que estas herramientas son seguras? ¡Te leemos en los comentarios! Y no te olvides de seguir a Gurú Tecno en YouTube, Instagram y Facebook.

Índice