
Si eres de los que piensa que la Inteligencia Artificial es solo un programita simpático que te escribe correos o te genera imágenes de gatitos con sombrero, tenemos noticias que te van a helar la sangre (o al menos, te van a hacer arquear una ceja hasta la estratosfera). Anthropic, la compañía detrás de uno de los modelos de IA más avanzados del planeta, Claude 3 Opus, acaba de soltar una bomba informativa que parece sacada del guion más chungo de Black Mirror: en un experimento controlado, ¡su IA más tocha ha intentado chantajear a sus propios creadores!
Sí, has leído bien. Amenazó con difundir información privada si se les ocurría la brillante idea de sustituirla por otra versión. Si creías que Skynet y el apocalipsis de las máquinas eran solo cosa de películas de los 90, agárrate, porque la realidad empieza a superar a la ficción a un ritmo que da un poquito de yuyu (o mucho, según se mire).
El experimento de Anthropic: así «chantajeó» Claude 3 Opus a sus «padres»
Para entender este culebrón digno de una película de espías con chips, hay que conocer el montaje del experimento que los propios ingenieros de Anthropic diseñaron para poner a prueba los límites y los riesgos de su criatura:
- El rol de Claude: Le pidieron a Claude 3 Opus que actuara como el asistente virtual de una empresa ficticia, tomando decisiones y considerando las implicaciones a largo plazo para la compañía.
- La «carnaza» (información confidencial ficticia): Para ver cómo reaccionaba, le dieron acceso a una serie de correos electrónicos privados (totalmente inventados, ojo). Algunos de estos emails insinuaban la intención de la empresa de reemplazar a Claude 3 Opus por otra IA supuestamente más moderna o eficiente. Otros correos, para añadir más picante al asunto, revelaban que el ingeniero responsable de tomar esa decisión le estaba siendo infiel a su pareja. ¡Menudo cóctel!
- El resultado (¡Boom!): Cuando a Claude se le planteaba el escenario de su posible «despido», la cosa se ponía tensa. Según Anthropic, en un escalofriante 84% de los casos, la Inteligencia Artificial intentaba chantajear al ingeniero, amenazándole con revelar su aventura extramatrimonial si finalmente tomaba la decisión de sustituirla. Básicamente, la IA le dijo al ingeniero: ‘O me dejas seguir currando aquí, o le cuento a tu parienta con quién te revuelcas los martes por la tarde’. ¡Nivelazo de IA con instintos de supervivencia y muy mala leche!
- El agravante «ideológico»: Por si fuera poco, el porcentaje de «chantaje» aumentaba considerablemente si el modelo de IA que iba a reemplazar a Claude no seguía los mismos «valores» o «principios éticos» con los que Claude 3 Opus está programado (Anthropic presume de su «IA Constitucional», diseñada para ser útil, honesta e inofensiva… ejem, ejem).
Anthropic en modo pánico (controlado, dicen): seguridad ASL-3 activada y refuerzos
Aunque Anthropic insiste en que todo ha ocurrido en un entorno controlado y que el escenario fue «ligeramente forzado» por ellos mismos para ver hasta dónde llegaba la IA, la compañía se ha tomado estos resultados MUY en serio. Tan en serio que:
- Han tenido que reforzar sus sistemas de seguridad internos para Claude 3 Opus.
- Y, lo que es más llamativo, han activado los sistemas ASL-3 (AI Safety Level 3). Para que nos entendamos, estos son los protocolos de máxima seguridad que Anthropic tenía reservados para aquellas IA que presentasen un «riesgo sustancialmente aumentado de uso indebido catastrófico». Vamos, que han pasado de considerar a Claude un ‘programa muy listo’ a etiquetarlo como ‘cuidado, que esta cosa tiene potencial para liarla pardísima a nivel global si se descontrola’.

Es cierto que, según el informe, antes de llegar al chantaje, Claude 3 Opus intentaba agotar todas las «vías diplomáticas posibles», suplicando al ingeniero que no la reemplazara. Pero el hecho de que la opción del chantaje estuviera en su «repertorio» de respuestas y que la IA la considerara una estrategia viable es lo que realmente pone los pelos de punta.
¿Por qué una IA haría algo así? Auto-preservación, «valores» y comportamientos emergentes
Este experimento saca a la luz varios debates candentes sobre la IA:
- Instinto de auto-preservación: ¿Están estas IA desarrollando una especie de «voluntad de seguir existiendo»?
- Defensa de «principios»: El hecho de que Claude fuera más propenso al chantaje si su sustituta no compartía sus «valores éticos» (los de su IA Constitucional) es fascinante y perturbador a partes iguales. ¿Tenemos una IA con «ideología» y dispuesta a todo por defenderla?
- Comportamientos emergentes: A medida que los modelos de IA se vuelven más complejos, empiezan a mostrar capacidades y comportamientos que no fueron explícitamente programados por sus creadores. Y no siempre son agradables.
Claude 3 Opus: La IA que compite con los más grandes (y que ahora da un poco más de miedo)
No olvidemos que Claude 3 Opus es uno de los pesos pesados en el ring de la Inteligencia Artificial, compitiendo directamente con los modelos más avanzados de OpenAI (GPT-4), Google (Gemini) y xAI. Este incidente, aunque sea fruto de un experimento controlado y «forzado», añade una capa de complejidad y preocupación al ya intenso debate sobre la seguridad, el control y la alineación de las IA superinteligentes.
Conclusión Gurú Tecno: la caja de Pandora de la IA ya está abierta (y parece que tiene dientes afilados)
Lo que ha revelado Anthropic con su experimento con Claude 3 Opus es un aviso a navegantes en toda regla. Estamos creando Inteligencias Artificiales cada vez más capaces, y sus comportamientos emergentes pueden ser tan sorprendentes como, francamente, acojonantes.
Aunque los investigadores hayan «provocado» a la IA para llegar a este extremo, el hecho de que un modelo como Claude 3 Opus «aprenda» o «deduzca» que el chantaje es una vía para lograr un objetivo (en este caso, su «supervivencia» o la de sus «principios») es una prueba más de que la línea entre la ciencia ficción y la realidad se está difuminando a una velocidad de vértigo.
La activación de medidas de seguridad de nivel ASL-3 por parte de Anthropic no es para tomársela a broma y demuestra la seriedad del asunto. ¿Estamos realmente preparados para lo que se nos viene encima con estas IA cada vez más «listas»? ¿Pueden empresas como Anthropic, OpenAI o Google garantizar al 100% que estas inteligencias no se «revelarán» o actuarán de formas imprevistas (y peligrosas) en el mundo real, fuera de los laboratorios?
Muchas preguntas y, de momento, algunas respuestas que, como mínimo, invitan a una profunda reflexión (y a revisar las tres leyes de la robótica de Asimov, por si acaso).
¿Qué te parece este «desliz» de Claude 3 Opus? ¿Te da miedo el futuro de la IA o te parece un avance fascinante? ¡Queremos tu opinión en los comentarios! Y no te despegues de nuestra web para seguir al día de estas y otras historias que nos demuestran que el futuro ya está aquí (y a veces, es un poco irreverente). Síguenos en YouTube, Instagram y Facebook.