GPT-5.5: más autonomía en tareas complejas, mejor código y clasificación Alta en riesgo de ciberseguridad
OpenAI lanza GPT-5.5 con mejoras reales en la ejecución autónoma de tareas multietapa, un rendimiento notablemente superior en benchmarks de programación y la primera clasificación oficial de riesgo Alto en capacidades de ciberseguridad. Disponible hoy en ChatGPT y Codex para planes Plus, Pro, Business y Enterprise.
OpenAI presenta GPT-5.5 como su modelo más avanzado hasta la fecha, disponible desde hoy en ChatGPT y Codex. La novedad no es solo de benchmarks: el salto más significativo está en la capacidad del modelo para ejecutar trabajo real con menor supervisión humana, especialmente en entornos técnicos y profesionales donde la precisión y la autonomía son críticas.
El lanzamiento también marca un precedente: es la primera vez que OpenAI clasifica oficialmente las capacidades de ciberseguridad de un modelo en el nivel "Alta", lo que obliga a una conversación más directa sobre los controles necesarios antes de seguir escalando capacidades.
Autonomía multietapa: el salto real de GPT-5.5
La mejora más relevante de GPT-5.5 no es la generación de texto más fluida: es la capacidad para gestionar flujos de trabajo completos con instrucciones imperfectas. El modelo puede recibir instrucciones desordenadas o incompletas, estructurarlas internamente y ejecutarlas de forma iterativa.
La diferencia con versiones anteriores: GPT-5.4 podía ejecutar tareas individuales con instrucciones claras. GPT-5.5 puede ejecutar flujos de trabajo completos con instrucciones imperfectas, detectar cuando un resultado intermedio no es correcto y redirigirse sin necesitar que el usuario lo supervise en cada paso. Es la diferencia entre un asistente que ejecuta órdenes y uno que gestiona proyectos.
En entornos de programación, esta capacidad se traduce en algo concreto: el modelo no solo identifica errores en el código, sino que localiza su origen, propone soluciones coherentes, evalúa los impactos colaterales en el resto del sistema y aplica cambios estructurales completos con mínima supervisión. Las pruebas internas documentan cambios arquitectónicos en sistemas complejos realizados de forma autónoma.
Benchmarks de programación: los números concretos
GPT-5.5 mejora de forma significativa respecto a su predecesor en todos los benchmarks de programación evaluados, con la ventaja adicional de un menor consumo de tokens por tarea completada.
Terminal-Bench 2.0 evalúa flujos complejos en línea de comandos. SWE-Bench Pro mide la resolución de problemas reales en repositorios de código existentes. OSWorld-Verified evalúa la ejecución autónoma en entornos informáticos reales. GDPval mide el rendimiento en tareas de conocimiento profesional en múltiples disciplinas.
La clasificación Alta en ciberseguridad: qué implica
GPT-5.5 es el primer modelo de OpenAI que recibe oficialmente la clasificación "Alta" en capacidades de ciberseguridad. Esta clasificación forma parte del sistema de evaluación de riesgos de la compañía y tiene implicaciones directas tanto para cómo se despliega el modelo como para los controles que se aplican a su uso.
GPT-5.5 es más eficaz que GPT-5.4 detectando y explotando vulnerabilidades en sistemas reales. No ha alcanzado el nivel "Crítico", que implicaría capacidades equivalentes a las de los mejores operadores humanos especializados, pero el salto desde "Medio" a "Alta" es significativo. OpenAI ha respondido con controles más estrictos en contextos sensibles y con una evaluación previa por expertos externos en ciberseguridad y biología.
OpenAI ha declarado que planea ajustar progresivamente las salvaguardas conforme evolucionen las capacidades del modelo. Esto sugiere que la compañía anticipa que versiones futuras podrían acercarse al nivel "Crítico", lo que plantea preguntas sobre los mecanismos de control que se implementarán en ese punto.
Disponibilidad, planes y GPT-5.5 Pro
GPT-5.5 está disponible desde hoy en ChatGPT y Codex para los planes Plus, Pro, Business y Enterprise. En Codex, la implementación incluye características específicas pensadas para flujos de trabajo de desarrollo profesional.
El trade-off del modo Fast: El modo Fast incrementa la velocidad de generación en 1,5 veces a un coste 2,5 veces superior. Para flujos de trabajo donde la latencia es el factor crítico y el presupuesto lo permite, puede ser la opción correcta. Para uso general donde la relación coste-calidad importa más que la velocidad, el modo estándar sigue siendo la opción más eficiente.
Conclusión: GPT-5.5 no es una actualización incremental de benchmarks: es el primer modelo de OpenAI que combina autonomía multietapa real, capacidades de programación significativamente superiores y una clasificación oficial de riesgo Alto en ciberseguridad. Ese último punto es el más relevante a largo plazo: OpenAI está reconociendo públicamente que sus modelos han alcanzado un nivel de capacidad ofensiva que requiere controles específicos, y que ese nivel seguirá aumentando. La pregunta no es si GPT-5.5 es más capaz que su predecesor. Lo es. La pregunta es si los mecanismos de control evolucionan al mismo ritmo que las capacidades. Por ahora, OpenAI dice que sí. El nivel "Crítico" dará la respuesta definitiva.