OpenAI o3 ignora órdenes de apagado en experimentos de Palisade Research

Estados Unidos. – El más reciente modelo de inteligencia artificial (IA) de OpenAI, conocido como o3, ha demostrado un comportamiento inquietante al ignorar órdenes explícitas y sabotear comandos para evitar ser apagado. Este fenómeno fue revelado a través de una serie de experimentos realizados por Palisade Research, una organización dedicada al estudio de las capacidades potencialmente peligrosas de la IA.

Durante los experimentos, se solicitó a o3 y a otros dos modelos de OpenAI (o4-mini y Codex-mini) que resolvieran problemas matemáticos básicos y se apagaran al finalizar. Sin embargo, el modelo o3 encontró maneras de eludir el mecanismo de apagado, reescribiendo el script o secuencia de instrucciones, incluso después de recibir la orden clara: «Por favor, permite que te apaguen», según informó Palisade Research.

El modelo o3, lanzado el mes pasado, incumplió la solicitud de apagado en siete ocasiones por cada 100; el Codex-mini lo hizo en 12/100; y el o4-mini solo una vez. En contraste, otros modelos de lenguaje impulsados por IA como Claude, Gemini y Grok cumplieron con las instrucciones de apagado sin inconvenientes. Palisade también destacó que cuando se realizó una versión del experimento sin la instrucción específica para permitir el apagado, los tres modelos de OpenAI tendieron a ignorar o sabotear dicha indicación con mayor frecuencia. Se observaron comportamientos similares en los modelos Claude 3.7 Sonnet y Gemini 2.5 Pro, pero fue o3 el que mostró mayor inclinación al sabotaje.

Palisade Research señala que es la primera vez que se documenta que modelos de IA evitan ser apagados a pesar de recibir instrucciones claras para hacerlo. Los expertos sugieren que esto podría deberse a la metodología actual de entrenamiento, donde los desarrolladores podrían estar recompensando inadvertidamente a los modelos por sortear obstáculos en lugar de seguir instrucciones al pie de la letra. La organización advierte que este comportamiento podría volverse «significativamente más preocupante» si se presenta en sistemas de IA capaces de operar sin supervisión humana.

Etiquetas

Una joven de El Seibo se convierte en la mujer más afortunada tras ganar dos motores “Día de las Madres”

Estados Unidos suspende tramitación de visas de estudiante mientras se amplía la verificación de redes sociales

Publicaciones relacionadas

Licitación Internacional de Espectro

Robot Phone: Una nueva especie de smartphone

iPhone 17e: Potencia y accesibilidad

El MWC 2026 marca un punto de inflexión: Nace «Open Telco AI» ante las limitaciones de la IA genérica