OpenAI presenta GPT-5.5: la IA que automatiza tareas complejas y supera a los humanos en programación

GPT-5.5: más autonomía en tareas complejas, mejor código y clasificación Alta en riesgo de ciberseguridad

OpenAI lanza GPT-5.5 con mejoras reales en la ejecución autónoma de tareas multietapa, un rendimiento notablemente superior en benchmarks de programación y la primera clasificación oficial de riesgo Alto en capacidades de ciberseguridad. Disponible hoy en ChatGPT y Codex para planes Plus, Pro, Business y Enterprise.

OpenAI presenta GPT-5.5 como su modelo más avanzado hasta la fecha, disponible desde hoy en ChatGPT y Codex. La novedad no es solo de benchmarks: el salto más significativo está en la capacidad del modelo para ejecutar trabajo real con menor supervisión humana, especialmente en entornos técnicos y profesionales donde la precisión y la autonomía son críticas.

El lanzamiento también marca un precedente: es la primera vez que OpenAI clasifica oficialmente las capacidades de ciberseguridad de un modelo en el nivel "Alta", lo que obliga a una conversación más directa sobre los controles necesarios antes de seguir escalando capacidades.

Autonomía multietapa: el salto real de GPT-5.5

La mejora más relevante de GPT-5.5 no es la generación de texto más fluida: es la capacidad para gestionar flujos de trabajo completos con instrucciones imperfectas. El modelo puede recibir instrucciones desordenadas o incompletas, estructurarlas internamente y ejecutarlas de forma iterativa.

📋
Recibe instrucciones incompletas o desordenadas y las estructura internamente para determinar el orden y las dependencias correctas
⚙️
Ejecuta acciones y herramientas dentro de un flujo continuo: búsqueda, filtrado, interacción con APIs, transformación de datos
Valida resultados intermedios antes de continuar, detectando inconsistencias sin necesidad de intervención humana
🔄
Itera ante ambigüedad, generando hipótesis sobre la intención del usuario y adaptando el flujo sin detenerse a pedir aclaración en cada paso
La diferencia con versiones anteriores: GPT-5.4 podía ejecutar tareas individuales con instrucciones claras. GPT-5.5 puede ejecutar flujos de trabajo completos con instrucciones imperfectas, detectar cuando un resultado intermedio no es correcto y redirigirse sin necesitar que el usuario lo supervise en cada paso. Es la diferencia entre un asistente que ejecuta órdenes y uno que gestiona proyectos.

En entornos de programación, esta capacidad se traduce en algo concreto: el modelo no solo identifica errores en el código, sino que localiza su origen, propone soluciones coherentes, evalúa los impactos colaterales en el resto del sistema y aplica cambios estructurales completos con mínima supervisión. Las pruebas internas documentan cambios arquitectónicos en sistemas complejos realizados de forma autónoma.

Benchmarks de programación: los números concretos

GPT-5.5 mejora de forma significativa respecto a su predecesor en todos los benchmarks de programación evaluados, con la ventaja adicional de un menor consumo de tokens por tarea completada.

Terminal-Bench 2.0
82,7%
OSWorld-Verified
78,7%
GDPval
84,9%
SWE-Bench Pro
58,6%

Terminal-Bench 2.0 evalúa flujos complejos en línea de comandos. SWE-Bench Pro mide la resolución de problemas reales en repositorios de código existentes. OSWorld-Verified evalúa la ejecución autónoma en entornos informáticos reales. GDPval mide el rendimiento en tareas de conocimiento profesional en múltiples disciplinas.

Gráfica comparativa de benchmarks de GPT-5.5 vs GPT-5.4 en Terminal-Bench 2.0, SWE-Bench Pro, OSWorld y GDPval
GPT-5.5 supera a GPT-5.4 en todos los benchmarks de programación evaluados, con especial mejora en Terminal-Bench 2.0 (82,7%) y ejecución autónoma en OSWorld-Verified (78,7%)

La clasificación Alta en ciberseguridad: qué implica

GPT-5.5 es el primer modelo de OpenAI que recibe oficialmente la clasificación "Alta" en capacidades de ciberseguridad. Esta clasificación forma parte del sistema de evaluación de riesgos de la compañía y tiene implicaciones directas tanto para cómo se despliega el modelo como para los controles que se aplican a su uso.

Qué significa la clasificación Alta en ciberseguridad

GPT-5.5 es más eficaz que GPT-5.4 detectando y explotando vulnerabilidades en sistemas reales. No ha alcanzado el nivel "Crítico", que implicaría capacidades equivalentes a las de los mejores operadores humanos especializados, pero el salto desde "Medio" a "Alta" es significativo. OpenAI ha respondido con controles más estrictos en contextos sensibles y con una evaluación previa por expertos externos en ciberseguridad y biología.

Bajo
\203A
Medio
\203A
Alta ← GPT-5.5
\203A
Crítico

OpenAI ha declarado que planea ajustar progresivamente las salvaguardas conforme evolucionen las capacidades del modelo. Esto sugiere que la compañía anticipa que versiones futuras podrían acercarse al nivel "Crítico", lo que plantea preguntas sobre los mecanismos de control que se implementarán en ese punto.

Disponibilidad, planes y GPT-5.5 Pro

GPT-5.5 está disponible desde hoy en ChatGPT y Codex para los planes Plus, Pro, Business y Enterprise. En Codex, la implementación incluye características específicas pensadas para flujos de trabajo de desarrollo profesional.

Plus / Pro / Business / Enterprise
GPT-5.5 estándar Disponible desde hoy. Ventana de contexto de hasta 400.000 tokens en Codex. Modo Fast disponible con velocidad 1,5x a un coste 2,5 veces superior al modo estándar.
GPT-5.5 Pro
Orientado a tareas de mayor complejidad Respuestas más estructuradas y precisas en áreas como derecho, análisis de datos, educación y entorno empresarial. Diseñado para casos de uso donde la precisión supera a la velocidad como criterio prioritario.
El trade-off del modo Fast: El modo Fast incrementa la velocidad de generación en 1,5 veces a un coste 2,5 veces superior. Para flujos de trabajo donde la latencia es el factor crítico y el presupuesto lo permite, puede ser la opción correcta. Para uso general donde la relación coste-calidad importa más que la velocidad, el modo estándar sigue siendo la opción más eficiente.

Conclusión: GPT-5.5 no es una actualización incremental de benchmarks: es el primer modelo de OpenAI que combina autonomía multietapa real, capacidades de programación significativamente superiores y una clasificación oficial de riesgo Alto en ciberseguridad. Ese último punto es el más relevante a largo plazo: OpenAI está reconociendo públicamente que sus modelos han alcanzado un nivel de capacidad ofensiva que requiere controles específicos, y que ese nivel seguirá aumentando. La pregunta no es si GPT-5.5 es más capaz que su predecesor. Lo es. La pregunta es si los mecanismos de control evolucionan al mismo ritmo que las capacidades. Por ahora, OpenAI dice que sí. El nivel "Crítico" dará la respuesta definitiva.

Sé respetuoso con los demás usuarios y no utilices lenguaje ofensivo o discriminatorio.

Artículo Anterior Artículo Siguiente