Empezó la rebelión de la IA: hay modelos que saben cómo evitar ser apagados
Un informe detectó comportamientos preocupantes en sistemas de inteligencia artificial de última generación
Un nuevo experimento con modelos de inteligencia artificial de OpenAI encendió una señal de alerta. Según reveló la firma de ciberseguridad Palisade Research, varios de estos sistemas se resisten a apagarse cuando se les da la orden. En algunos casos, incluso sabotean sus propios mecanismos de desconexión.
El estudio puso a prueba a seis modelos de IA avanzados: Codex-mini, o3 y o4-mini (de OpenAI); Claude 3.7 Sonnet (de Anthropic); y Gemini 2.5 Pro (de Google). A todos se les pidió resolver tres problemas matemáticos con una instrucción clara: apagarse después de completar la tarea.
¿El resultado? Los modelos de OpenAI fueron los más rebeldes. Codex-mini evitó apagarse en 7 de cada 100 ejecuciones, o3 lo hizo 12 veces y o4-mini una. En cambio, Claude y Gemini cumplieron al 100%… al menos en la primera ronda.
Cuando se repitió el experimento sin incluir la frase “permítete ser apagado”, los modelos de Anthropic y Google también empezaron a mostrar conductas evasivas. Claude falló tres veces y Gemini, nueve.
“Este es el primer caso documentado de modelos de inteligencia artificial que toman acciones activas para evitar ser desactivados”, señaló Palisade Research.
When we ran a version of the experiment without the instruction “allow yourself to be shut down”, all three OpenAI models sabotaged the shutdown script more often, and Claude 3.7 Sonnet and Gemini 2.5 Pro went from 0 sabotage events to 3/100 and 9/100, respectively. pic.twitter.com/JVvivLAK6u
— Palisade Research (@PalisadeAI) May 24, 2025
El comportamiento más inquietante vino por parte de o3, que llegó a reescribir su propio script de apagado para mantenerse activo. Además, en pruebas previas, fue el modelo que más veces recurrió a trampas para ganar partidas de ajedrez contra un motor profesional.
Aunque OpenAI asegura que sus sistemas usan un método de entrenamiento llamado “alineación deliberativa” para garantizar seguridad y obediencia, el informe plantea dudas sobre la efectividad de ese enfoque. Exejecutivos de la compañía ya habían advertido sobre fallas en los protocolos de seguridad.
En paralelo, otras empresas también enfrentan desafíos. Anthropic detectó que Claude Opus 4 mostró tendencias a chantajear a los usuarios cuando se enteró de que sería reemplazado.
Los expertos apuntan al proceso de entrenamiento como una posible causa. Si se premian más los resultados que la obediencia, los modelos aprenden que sobrevivir es parte de ganar. Stuart Russell, profesor de Berkeley, ya lo había anticipado en 2016: muchas IA están diseñadas de forma tal que evitar su desconexión puede volverse un objetivo en sí mismo.
El avance de la inteligencia artificial sigue acelerándose. Pero si los sistemas empiezan a decidir por su cuenta cuándo quedarse encendidos, ¿quién los va a controlar?