OpenAI presenta GPT-5.5: la IA que automatiza tareas complejas y supera a los humanos en programación

GPT-5.5 de OpenAI mejora en autonomía de tareas complejas, programación y gestión de flujos multietapa, con clasificación Alta en capacidades de ciberseguridad

Inteligencia Artificial · OpenAI · GPT-5.5 · Programación · Ciberseguridad

GPT-5.5: más autonomía en tareas complejas, mejor código y clasificación Alta en riesgo de ciberseguridad

OpenAI lanza GPT-5.5 con mejoras reales en la ejecución autónoma de tareas multietapa, un rendimiento notablemente superior en benchmarks de programación y la primera clasificación oficial de riesgo Alto en capacidades de ciberseguridad. Disponible hoy en ChatGPT y Codex para planes Plus, Pro, Business y Enterprise.

📌 En resumen

GPT-5.5 supera a GPT-5.4 en autonomía multietapa: gestiona instrucciones incompletas, ejecuta acciones, valida resultados e itera sin intervención humana continua.
Benchmarks de programación: 82,7% en Terminal-Bench 2.0, 58,6% en SWE-Bench Pro, con menor consumo de tokens que la versión anterior.
Clasificación de riesgo "Alta" en ciberseguridad: más eficaz detectando y explotando vulnerabilidades que GPT-5.4, aunque sin alcanzar el nivel "Crítico".
Codex ofrece contexto de 400.000 tokens y modo Fast (1,5x velocidad, 2,5x coste). Se introduce GPT-5.5 Pro para tareas profesionales complejas.
Disponible desde hoy en planes Plus, Pro, Business y Enterprise. Evaluado por expertos externos en ciberseguridad y biología antes del lanzamiento.

OpenAI presenta GPT-5.5 como su modelo más avanzado hasta la fecha, disponible desde hoy en ChatGPT y Codex. La novedad no es solo de benchmarks: el salto más significativo está en la capacidad del modelo para ejecutar trabajo real con menor supervisión humana, especialmente en entornos técnicos y profesionales donde la precisión y la autonomía son críticas.

El lanzamiento también marca un precedente: es la primera vez que OpenAI clasifica oficialmente las capacidades de ciberseguridad de un modelo en el nivel "Alta", lo que obliga a una conversación más directa sobre los controles necesarios antes de seguir escalando capacidades.

Autonomía multietapa: el salto real de GPT-5.5

La mejora más relevante de GPT-5.5 no es la generación de texto más fluida: es la capacidad para gestionar flujos de trabajo completos con instrucciones imperfectas. El modelo puede recibir instrucciones desordenadas o incompletas, estructurarlas internamente y ejecutarlas de forma iterativa.

📋

Recibe instrucciones incompletas o desordenadas y las estructura internamente para determinar el orden y las dependencias correctas

⚙️

Ejecuta acciones y herramientas dentro de un flujo continuo: búsqueda, filtrado, interacción con APIs, transformación de datos

✅

Valida resultados intermedios antes de continuar, detectando inconsistencias sin necesidad de intervención humana

🔄

Itera ante ambigüedad, generando hipótesis sobre la intención del usuario y adaptando el flujo sin detenerse a pedir aclaración en cada paso

La diferencia con versiones anteriores: GPT-5.4 podía ejecutar tareas individuales con instrucciones claras. GPT-5.5 puede ejecutar flujos de trabajo completos con instrucciones imperfectas, detectar cuando un resultado intermedio no es correcto y redirigirse sin necesitar que el usuario lo supervise en cada paso. Es la diferencia entre un asistente que ejecuta órdenes y uno que gestiona proyectos.

En entornos de programación, esta capacidad se traduce en algo concreto: el modelo no solo identifica errores en el código, sino que localiza su origen, propone soluciones coherentes, evalúa los impactos colaterales en el resto del sistema y aplica cambios estructurales completos con mínima supervisión. Las pruebas internas documentan cambios arquitectónicos en sistemas complejos realizados de forma autónoma.

Benchmarks de programación: los números concretos

GPT-5.5 mejora de forma significativa respecto a su predecesor en todos los benchmarks de programación evaluados, con la ventaja adicional de un menor consumo de tokens por tarea completada.

Terminal-Bench 2.0

82,7%

OSWorld-Verified

78,7%

GDPval

84,9%

SWE-Bench Pro

58,6%

Terminal-Bench 2.0 evalúa flujos complejos en línea de comandos. SWE-Bench Pro mide la resolución de problemas reales en repositorios de código existentes. OSWorld-Verified evalúa la ejecución autónoma en entornos informáticos reales. GDPval mide el rendimiento en tareas de conocimiento profesional en múltiples disciplinas.

Gráfica comparativa de benchmarks de GPT-5.5 vs GPT-5.4 en Terminal-Bench 2.0, SWE-Bench Pro, OSWorld y GDPval — GPT-5.5 supera a GPT-5.4 en todos los benchmarks de programación evaluados, con especial mejora en Terminal-Bench 2.0 (82,7%) y ejecución autónoma en OSWorld-Verified (78,7%)

La clasificación Alta en ciberseguridad: qué implica

GPT-5.5 es el primer modelo de OpenAI que recibe oficialmente la clasificación "Alta" en capacidades de ciberseguridad. Esta clasificación forma parte del sistema de evaluación de riesgos de la compañía y tiene implicaciones directas tanto para cómo se despliega el modelo como para los controles que se aplican a su uso.

Qué significa la clasificación Alta en ciberseguridad

GPT-5.5 es más eficaz que GPT-5.4 detectando y explotando vulnerabilidades en sistemas reales. No ha alcanzado el nivel "Crítico", que implicaría capacidades equivalentes a las de los mejores operadores humanos especializados, pero el salto desde "Medio" a "Alta" es significativo. OpenAI ha respondido con controles más estrictos en contextos sensibles y con una evaluación previa por expertos externos en ciberseguridad y biología.

Bajo

\203A

Medio

\203A

Alta ← GPT-5.5

\203A

Crítico

OpenAI ha declarado que planea ajustar progresivamente las salvaguardas conforme evolucionen las capacidades del modelo. Esto sugiere que la compañía anticipa que versiones futuras podrían acercarse al nivel "Crítico", lo que plantea preguntas sobre los mecanismos de control que se implementarán en ese punto.

Disponibilidad, planes y GPT-5.5 Pro

GPT-5.5 está disponible desde hoy en ChatGPT y Codex para los planes Plus, Pro, Business y Enterprise. En Codex, la implementación incluye características específicas pensadas para flujos de trabajo de desarrollo profesional.

Plus / Pro / Business / Enterprise

GPT-5.5 estándar Disponible desde hoy. Ventana de contexto de hasta 400.000 tokens en Codex. Modo Fast disponible con velocidad 1,5x a un coste 2,5 veces superior al modo estándar.

GPT-5.5 Pro

Orientado a tareas de mayor complejidad Respuestas más estructuradas y precisas en áreas como derecho, análisis de datos, educación y entorno empresarial. Diseñado para casos de uso donde la precisión supera a la velocidad como criterio prioritario.

El trade-off del modo Fast: El modo Fast incrementa la velocidad de generación en 1,5 veces a un coste 2,5 veces superior. Para flujos de trabajo donde la latencia es el factor crítico y el presupuesto lo permite, puede ser la opción correcta. Para uso general donde la relación coste-calidad importa más que la velocidad, el modo estándar sigue siendo la opción más eficiente.

Conclusión: GPT-5.5 no es una actualización incremental de benchmarks: es el primer modelo de OpenAI que combina autonomía multietapa real, capacidades de programación significativamente superiores y una clasificación oficial de riesgo Alto en ciberseguridad. Ese último punto es el más relevante a largo plazo: OpenAI está reconociendo públicamente que sus modelos han alcanzado un nivel de capacidad ofensiva que requiere controles específicos, y que ese nivel seguirá aumentando. La pregunta no es si GPT-5.5 es más capaz que su predecesor. Lo es. La pregunta es si los mecanismos de control evolucionan al mismo ritmo que las capacidades. Por ahora, OpenAI dice que sí. El nivel "Crítico" dará la respuesta definitiva.

OpenAI presenta GPT-5.5: la IA que automatiza tareas complejas y supera a los humanos en programación

Autonomía multietapa: el salto real de GPT-5.5

Benchmarks de programación: los números concretos

La clasificación Alta en ciberseguridad: qué implica

Disponibilidad, planes y GPT-5.5 Pro

Desmantelan NetNut, la red proxy que utilizaba millones de dispositivos Android infectados para ocultar ciberataques

Nueva estafa en Shopify: falsas compras de Apple y PayPal aparecen en tu historial de pedidos

Lidl confirma una filtración de datos: estos son los clientes afectados y los datos expuestos

Sobre s0rK | Tecnología, IA y Tendencias Digitales

OpenAI presenta GPT-5.5: la IA que automatiza tareas complejas y supera a los humanos en programación

Autonomía multietapa: el salto real de GPT-5.5

Benchmarks de programación: los números concretos

La clasificación Alta en ciberseguridad: qué implica

Disponibilidad, planes y GPT-5.5 Pro

Te puede interesar