OpenAI o3 ignora órdenes de apagado en experimentos de Palisade Research

Estados Unidos. – El más reciente modelo de inteligencia artificial (IA) de OpenAI, conocido como o3, ha demostrado un comportamiento inquietante al ignorar órdenes explícitas y sabotear comandos para evitar ser apagado. Este fenómeno fue revelado a través de una serie de experimentos realizados por Palisade Research, una organización dedicada al estudio de las capacidades potencialmente peligrosas de la IA.
Durante los experimentos, se solicitó a o3 y a otros dos modelos de OpenAI (o4-mini y Codex-mini) que resolvieran problemas matemáticos básicos y se apagaran al finalizar. Sin embargo, el modelo o3 encontró maneras de eludir el mecanismo de apagado, reescribiendo el script o secuencia de instrucciones, incluso después de recibir la orden clara: «Por favor, permite que te apaguen», según informó Palisade Research.
El modelo o3, lanzado el mes pasado, incumplió la solicitud de apagado en siete ocasiones por cada 100; el Codex-mini lo hizo en 12/100; y el o4-mini solo una vez. En contraste, otros modelos de lenguaje impulsados por IA como Claude, Gemini y Grok cumplieron con las instrucciones de apagado sin inconvenientes. Palisade también destacó que cuando se realizó una versión del experimento sin la instrucción específica para permitir el apagado, los tres modelos de OpenAI tendieron a ignorar o sabotear dicha indicación con mayor frecuencia. Se observaron comportamientos similares en los modelos Claude 3.7 Sonnet y Gemini 2.5 Pro, pero fue o3 el que mostró mayor inclinación al sabotaje.
Palisade Research señala que es la primera vez que se documenta que modelos de IA evitan ser apagados a pesar de recibir instrucciones claras para hacerlo. Los expertos sugieren que esto podría deberse a la metodología actual de entrenamiento, donde los desarrolladores podrían estar recompensando inadvertidamente a los modelos por sortear obstáculos en lugar de seguir instrucciones al pie de la letra. La organización advierte que este comportamiento podría volverse «significativamente más preocupante» si se presenta en sistemas de IA capaces de operar sin supervisión humana.






