OpenAI lanza GPT-5.4: agente autónomo que controla tu ordenador con Thinking Mode en tiempo real
El lanzamiento de GPT-5.4 por parte de OpenAI, realizado el 5 de marzo de 2026, marca un punto de inflexión en la evolución de la inteligencia artificial, pasando de ser un chatbot interactivo a un agente autónomo capaz de operar software directamente.
Control nativo del ordenador y agentes de IA
La característica más disruptiva de GPT-5.4 es su capacidad para manejar aplicaciones, navegar por interfaces y ejecutar tareas de varios pasos entre diferentes programas.
Cómo funciona el control del ordenador
El modelo puede interpretar capturas de pantalla, emitir comandos de teclado y ratón, y escribir código para controlar software. Ya no solo responde preguntas, sino que ejecuta acciones.
Por ejemplo, puede abrir Excel, crear una tabla dinámica, copiar datos a PowerPoint y enviar el resultado por email, todo de forma autónoma.
Rendimiento OSWorld-Verified: GPT-5.4 alcanzó un 75% de éxito en el benchmark OSWorld-Verified, que mide la capacidad de operar un escritorio completo. Esto supera la base humana del 72.4%, demostrando que la IA ya puede ejecutar tareas de oficina mejor que una persona promedio.
De chatbot a agente autónomo
Este salto marca la transición de GPT como herramienta de conversación a GPT como compañero de trabajo activo. Ya no solo sugiere respuestas, sino que ejecuta flujos de trabajo completos de principio a fin.
1M tokens de contexto y Thinking Mode interrumpible
Ventana de contexto de 1 millón de tokens
GPT-5.4 amplía drásticamente su memoria de trabajo, alcanzando el millón de tokens. Esto equivale a unas 750,000 palabras o varios libros completos.
Esta capacidad está orientada a Codex y la API, permitiendo analizar repositorios de código completos o documentos legales extensos de una sola vez.
En la interfaz estándar de ChatGPT, la ventana es menor, pero el modelo ahora gestiona mucho mejor las tareas de larga duración que pueden llevar horas.
Thinking Mode: razonamiento visible e interrumpible
Una novedad en la experiencia de usuario es la capacidad de ver y dirigir el plan de razonamiento del modelo mientras trabaja.
Los usuarios pueden ver los pasos que la IA planea seguir y, si detectan un error o quieren cambiar el rumbo, pueden interrumpirla y redirigir las instrucciones sin esperar a que termine de generar la respuesta.
OpenAI afirma que GPT-5.4 es un 33% menos propenso a alucinaciones que la versión 5.2. Esto significa que genera respuestas inventadas o incorrectas con mucha menor frecuencia, mejorando significativamente su fiabilidad para tareas profesionales.
Cómo funciona el Thinking Mode
Imagina que le pides a GPT-5.4 que analice un informe financiero. En lugar de esperar pasivamente, verás en tiempo real:
- El modelo planea abrir Excel
- Identifica las columnas relevantes
- Calcula ratios financieros
- Genera gráficos comparativos
Si en el paso 2 detectas que se equivocó de columna, puedes interrumpirlo y corregirlo antes de que continúe. Esto ahorra tiempo y mejora la precisión.
Integración profesional y precios de la API
Integración con Excel y Google Sheets
El modelo se ha optimizado para tareas de oficina de alta complejidad. Ahora se integra directamente en herramientas como Google Sheets y Excel para realizar análisis de modelos financieros complejos.
En tareas de modelado de hojas de cálculo, el modelo puntuó un 87.3%, frente al 68.4% de su predecesor GPT-5.2. Esto representa una mejora del 28% en precisión.
Casos de uso profesionales: Análisis financiero automático, creación de dashboards dinámicos, auditoría de modelos de Excel con miles de fórmulas, y generación de reportes ejecutivos con datos actualizados en tiempo real.
Disponibilidad y precios de la API
GPT-5.4 ya está disponible para los suscriptores de ChatGPT Plus, Pro y Team bajo el selector "GPT-5.4 Thinking".
Se han introducido las versiones GPT-5.4 y GPT-5.4 Pro en la API, con un incremento notable en el precio:
| Modelo | Entrada (por 1M tokens) | Salida (por 1M tokens) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.4 Pro | $30.00 | $180.00 |
| GPT-5.2 Pro (anterior) | $21.00 | $168.00 |
El aumento de precio refleja las capacidades ampliadas del modelo, especialmente el control del ordenador y la ventana de 1M tokens.
GPT-5.4 Pro cuesta $30 por millón de tokens de entrada (vs $21 de la versión 5.2 Pro), un aumento del 43%. Sin embargo, las nuevas capacidades de agente autónomo y control del ordenador justifican el precio para casos de uso empresariales donde automatizar flujos de trabajo completos genera ROI inmediato.
Conclusión: GPT-5.4 consolida la visión de OpenAI de convertir a la IA en un compañero de trabajo activo que no solo sugiere respuestas, sino que ejecuta flujos de trabajo completos de principio a fin. El control nativo del ordenador, la ventana de 1M tokens y el Thinking Mode interrumpible representan un salto cualitativo desde los chatbots conversacionales hacia agentes autónomos capaces de operar software profesional. Con un 75% de éxito en OSWorld superando la base humana, GPT-5.4 demuestra que la automatización inteligente de tareas de oficina ya no es ciencia ficción.