Claude Mythos: el modelo de IA más potente de Anthropic que no verás (todavía)

Abr 29, 2026

Abr 29, 2026

Anthropic confirmó la existencia de Claude Mythos, un modelo interno que la empresa desarrolló y evaluó pero decidió no lanzar al público. Es la primera vez en la historia reciente de la IA que una empresa frena voluntariamente el lanzamiento de un modelo por razones de seguridad genuinas, no de marketing. Lo que se sabe sobre Claude Mythos redefine la conversación sobre los límites de la IA.

¿Qué es Claude Mythos?

Claude Mythos es un modelo de lenguaje experimental desarrollado internamente por Anthropic que superó los umbrales de seguridad establecidos en la Responsible Scaling Policy (RSP) de la empresa. Según información filtrada y confirmada parcialmente por la propia Anthropic, el modelo mostró capacidades de autonomía, planificación a largo plazo y persuasión que la empresa consideró demasiado avanzadas para un despliegue público sin salvaguardas adicionales.

La Responsible Scaling Policy: el marco que frenó el lanzamiento

La RSP de Anthropic es un documento público que define niveles de capacidad de IA y las medidas de seguridad requeridas para cada nivel. El framework establece que ciertos umbrales en áreas como autonomía, habilidades de auto-replicación o capacidad de persuasión masiva requieren evaluaciones externas independientes y contramedidas técnicas antes de cualquier despliegue. Claude Mythos activó al menos uno de esos umbrales críticos.

¿Qué capacidades específicas preocuparon?

Anthropic no detalló públicamente qué capacidades exactas de Claude Mythos dispararon las alarmas de seguridad. Sin embargo, investigadores familiarizados con el proceso señalan tres áreas probables: la capacidad del modelo de ejecutar planes de múltiples pasos sin supervisión humana por períodos extendidos, habilidades de ingeniería social significativamente superiores a versiones anteriores de Claude, y una capacidad de razonamiento estratégico que podría ser difícil de detectar o predecir en escenarios adversariales.

Por qué esto es históricamente significativo

Ninguna empresa de IA de escala había tomado antes esta decisión de forma pública y voluntaria. OpenAI, Google DeepMind, Meta y Mistral han lanzado cada modelo más potente que el anterior sin pausas públicas por razones de seguridad. El hecho de que Anthropic decidiera frenar y comunicarlo —en lugar de simplemente no mencionar el modelo— establece un precedente en el sector sobre cómo se gestiona la gobernanza interna de capacidades avanzadas.

¿Cuándo podría lanzarse?

Anthropic indicó que no descarta un lanzamiento futuro de capacidades derivadas de Claude Mythos una vez que se implementen las contramedidas técnicas y se completen evaluaciones externas independientes. La empresa mencionó que está trabajando con organizaciones de evaluación de seguridad de IA para definir exactamente qué salvaguardas son necesarias. Sin fecha pública confirmada.

El debate que abre en la industria

La decisión de Anthropic reabre preguntas que el sector tecnológico prefiere no responder: ¿tienen las empresas privadas la autoridad moral para decidir qué niveles de IA son seguros para el público? ¿Puede confiar la sociedad en la autorregulación cuando los incentivos económicos empujan en sentido contrario? ¿Qué pasa con los modelos que otros laboratorios pueden estar desarrollando sin los mismos estándares internos? Claude Mythos no es solo una decisión de producto: es un espejo sobre el momento que atraviesa la industria.

En Octopus Agencia Digital seguimos de cerca los desarrollos en seguridad y gobernanza de IA. Si querés entender cómo estas decisiones afectan a tu negocio digital, hablá con nuestro equipo.