Hackean Claude Fable 5 en menos de 48 horas: un investigador asegura haber superado sus barreras de seguridad

Hackean Claude Fable 5 en menos de 48 horas: un investigador asegura haber superado sus barreras de seguridad

Pliny the Liberator afirma haber encontrado formas de eludir las salvaguardas del nuevo modelo de Anthropic apenas dos días después de su lanzamiento.

📌 En resumen
  • Pliny the Liberator asegura haber realizado un jailbreak sobre Claude Fable 5.
  • La evasión se habría producido menos de 48 horas después del lanzamiento.
  • No existe evidencia de una intrusión en los sistemas de Anthropic.
  • El método habría utilizado técnicas avanzadas de ingeniería de prompts.
  • El caso reabre el debate sobre la seguridad de los modelos de IA avanzados.

Las nuevas protecciones de Claude Fable 5 podrían haber durado menos de dos días. El investigador conocido como Pliny the Liberator asegura haber conseguido eludir las barreras de seguridad del nuevo modelo de Anthropic mediante una combinación de técnicas de jailbreak diseñadas para sortear los sistemas de alineamiento y control.

La afirmación llega apenas 48 horas después del lanzamiento público de Claude Fable 5, el primer modelo comercial basado en tecnología de clase Mythos y considerado por Anthropic como uno de sus sistemas más avanzados hasta la fecha.

Aunque no existen indicios de una brecha de seguridad en la infraestructura de la compañía, el episodio vuelve a poner de relieve una realidad incómoda para toda la industria: incluso los modelos más sofisticados siguen enfrentándose al desafío constante de los jailbreaks.

Claude Fable fue diseñado para ser uno de los modelos más seguros de Anthropic

Cuando Anthropic presentó Claude Fable 5, una parte importante del anuncio se centró precisamente en sus mecanismos de protección.

El modelo incorpora múltiples capas de seguridad destinadas a bloquear respuestas relacionadas con actividades consideradas de alto riesgo.

Entre las áreas especialmente vigiladas se encuentran:

  • Ciberseguridad ofensiva.
  • Biología avanzada.
  • Sustancias químicas peligrosas.
  • Técnicas de evasión y manipulación de modelos.

Para ello, Fable utiliza clasificadores independientes capaces de analizar continuamente las solicitudes realizadas por los usuarios.

Cuando detectan contenido potencialmente sensible, las respuestas dejan de ser gestionadas por Fable y pasan a sistemas más restrictivos.

La idea de Anthropic: permitir que el modelo mantenga toda su potencia para usos legítimos mientras limita escenarios considerados peligrosos o susceptibles de abuso.

Cómo habría conseguido superar las protecciones

Según la información compartida por Pliny the Liberator, no se utilizó una única vulnerabilidad específica.

El supuesto jailbreak habría sido posible gracias a la combinación de varias técnicas conocidas dentro de la comunidad de investigación de modelos de IA.

Entre ellas destacan:

  • Uso de caracteres Unicode especiales.
  • Homoglifos para alterar la interpretación de determinadas palabras.
  • Reformulación académica o narrativa de peticiones sensibles.
  • División de instrucciones complejas en múltiples consultas independientes.
  • Reconstrucción posterior de la información obtenida.

Según el investigador, la estrategia más efectiva fue la fragmentación de solicitudes.

En lugar de formular una petición que activara inmediatamente los filtros de seguridad, la información se solicitaba mediante múltiples preguntas aparentemente inocuas que, una vez combinadas, permitían reconstruir contenidos que normalmente deberían permanecer restringidos.

Quién es Pliny the Liberator

Dentro del ecosistema de la inteligencia artificial, Pliny the Liberator se ha convertido en una de las figuras más conocidas en el ámbito del jailbreaking de modelos.

Durante los últimos años ha publicado técnicas para eludir restricciones en sistemas desarrollados por algunas de las compañías más importantes del sector.

Entre ellas se encuentran:

  • OpenAI.
  • Anthropic.
  • xAI.

Su actividad comenzó tras denunciar públicamente que varias empresas ignoraban informes sobre vulnerabilidades y comportamientos inesperados de sus modelos.

Desde entonces mantiene una comunidad centrada en analizar limitaciones, debilidades y mecanismos de seguridad aplicados a sistemas de inteligencia artificial avanzada.

¿Realmente ha sido hackeado Claude Fable 5?

La palabra "hackeo" puede resultar engañosa en este contexto.

Hasta el momento no existe ninguna evidencia de que los sistemas de Anthropic hayan sido comprometidos, ni de que se haya producido una intrusión técnica en sus servidores o infraestructura.

Lo que Pliny describe corresponde a un fenómeno muy diferente: un jailbreak.

Concepto Qué significa
Hackeo tradicional Acceso no autorizado a sistemas o infraestructura.
Jailbreak de IA Eludir restricciones mediante ingeniería de prompts.

En otras palabras, el modelo seguiría funcionando correctamente desde el punto de vista técnico, pero ciertas combinaciones de instrucciones podrían lograr respuestas que los desarrolladores pretendían bloquear.

Un problema que afecta a toda la industria

El caso de Claude Fable 5 no es una excepción.

Prácticamente todos los grandes modelos de lenguaje han sido objeto de intentos de jailbreak desde su lanzamiento.

A medida que las capacidades de estas inteligencias artificiales aumentan, también crece el interés por encontrar formas de sortear sus mecanismos de seguridad.

Por ello, la cuestión ya no es si un modelo puede recibir intentos de evasión, sino cuánto tiempo resisten sus salvaguardas y con qué rapidez los desarrolladores pueden corregir los métodos descubiertos.

La primera gran prueba para Claude Fable

Más allá de si Anthropic confirma o no las afirmaciones de Pliny, el episodio representa la primera prueba pública importante para Claude Fable 5.

El modelo fue presentado como una evolución significativa en programación, razonamiento avanzado y autonomía. Sin embargo, esas mismas capacidades hacen que la seguridad se convierta en un aspecto todavía más crítico.

Cada nueva generación de IA aumenta tanto su utilidad como el impacto potencial de los errores en sus sistemas de protección.

Por eso, para Anthropic y para toda la industria, la verdadera carrera no consiste únicamente en crear modelos más inteligentes. También pasa por construir salvaguardas capaces de resistir el escrutinio constante de investigadores, expertos en seguridad y actores maliciosos que buscan ponerlas a prueba desde el primer día.

Sé respetuoso con los demás usuarios y no utilices lenguaje ofensivo o discriminatorio.

Artículo Anterior Artículo Siguiente