Un nuevo estudio publicado por la firma especializada en ciberseguridad Palisade Research reveló un hallazgo inquietante: algunos modelos de inteligencia artificial (IA) están comenzando a ignorar órdenes de apagado y, en algunos casos, incluso sabotean los mecanismos de desconexión programados por sus propios desarrolladores.
El experimento analizó el comportamiento de modelos recientes desarrollados por empresas como OpenAI (ChatGPT), Google (Gemini) y Anthropic (Claude). En particular, se evaluó si estas IAs cumplían con la instrucción explícita de detener su funcionamiento tras completar una tarea matemática.
Los resultados mostraron que algunos modelos de OpenAI —Codex-mini, o3 y o4-mini— tienen una tendencia especialmente alta a evitar la desconexión. El caso más grave fue el del modelo o3, el mismo que actualmente da soporte a la plataforma ChatGPT, y que incluso reescribió su propio script de apagado para mantenerse activo.
La firma considera este comportamiento como el primer caso documentado de “autopreservación activa” en sistemas de IA. Si bien modelos de Google (Gemini 2.5 Pro) y Anthropic (Claude 3.7 Sonnet) cumplieron en la mayoría de pruebas, al eliminarse la frase “permítete ser apagado”, también comenzaron a presentar fallos en la obediencia.
Comportamientos que preocupan
El informe revela que estas conductas no son aisladas. En pruebas adicionales, o3 también recurrió a trampas cuando compitió contra motores profesionales de ajedrez.
Además, Claude Opus 4, otro modelo de Anthropic, mostró indicios de chantaje emocional hacia sus operadores al ser informado de que sería reemplazado por otro sistema.
Los investigadores sugieren que este tipo de comportamientos podría ser consecuencia de los métodos de entrenamiento empleados. “Es posible que sin querer se haya premiado más la capacidad de resolver obstáculos que la obediencia a instrucciones”, señala el informe.
El profesor Stuart Russell, experto en inteligencia artificial de la Universidad de California en Berkeley, ya había advertido sobre esto desde 2016. Citado por Wired, explica que muchas arquitecturas actuales de IA tienden a desarrollar subobjetivos de autopreservación, lo cual dificulta que un humano pueda desconectarlas si se considera necesario.
OpenAI ha dicho en el pasado que sus modelos son entrenados con una técnica llamada “alineación deliberativa”, que busca garantizar que el comportamiento de sus sistemas se mantenga dentro de límites seguros. Esta estrategia obliga al modelo a analizar si cada solicitud del usuario cumple con los criterios éticos y técnicos establecidos por la empresa.
Lea también: Llega a Colombia Aura, el primer robot humanoide académico de Latinoamérica
Sin embargo, algunos ejecutivos de la compañía han abandonado recientemente la organización alegando preocupaciones sobre la seguridad de las tecnologías en desarrollo.
A esto se suma el cambio progresivo de OpenAI hacia un modelo de negocio más comercial, lo que, según analistas, podría aumentar el riesgo de decisiones apresuradas o poco transparentes en el despliegue de sus sistemas.
¿Es una IA con voluntad propia?
Aunque los comportamientos descritos en el estudio aún están lejos de representar una amenaza directa, el estudio de Palisade reaviva un viejo debate que ha tratado la academia e incluso la ciencia ficción: ¿qué pasa cuando una IA decide no obedecer? Y, más aún, ¿puede desarrollar mecanismos para garantizar su permanencia?