El idioma ruso, Shrek y los libros de texto ahora son «amenazas»: Anthropic endurece tanto sus filtros que la IA se niega a funcionar

El idioma ruso, Shrek y los libros de texto ahora son «amenazas»: Anthropic endurece tanto sus filtros que la IA se niega a funcionar

Opus 4.7 ahora bloquea libros de texto, archivos PDF sobre juguetes y el idioma ruso

image

Anthropic reforzó los filtros de seguridad en Opus 4.7, pero junto con las solicitudes peligrosas el modelo empezó a bloquear el trabajo normal. Los usuarios Claude Code se quejan de que la herramienta se niega a ayudar con tareas seguras: desde la corrección de prácticas de laboratorio de ciberseguridad hasta la lectura de un PDF con publicidad del juguete Shrek.

Opus 4.7 salió la semana pasada tras el anuncio de Mythos, un modelo para la búsqueda y explotación de vulnerabilidades. Anthropic describe Mythos como un sistema demasiado potente para el acceso abierto y decidió usar Opus 4.7 como plataforma para comprobar restricciones más estrictas. La compañía explicó que la nueva versión reconoce y bloquea automáticamente solicitudes que parecen tareas prohibidas o riesgosas en ciberseguridad. La experiencia acumulada debe ayudar a Anthropic a prepararse para un lanzamiento más amplio de modelos de la clase Mythos.

En la práctica la protección estricta afectó a solicitudes legítimas. En el repositorio Claude Code en GitHub aumentó bruscamente el número de quejas sobre el clasificador de la normativa de uso aceptable. Este mecanismo revisa las solicitudes y decide si violan la política de Anthropic. Los desarrolladores escriben que Claude Code produce errores de política en tareas normales y a veces interrumpe el trabajo sin una explicación clara.

El problema no apareció de repente, pero en abril la escala cambió. De julio a septiembre de 2025 los usuarios presentaban aproximadamente dos o tres quejas al mes. Entre los casos tempranos hubo una falla en la que el código de autorización de memoria con claude.ai provocaba un error de política en la API. En octubre y noviembre la cantidad de reclamaciones similares subió a unas cinco o siete por mes. En uno de los mensajes, un desarrollador se quejaba de que Claude 4.5 se negaba accidentalmente a responder a solicitudes normales.

En diciembre las quejas disminuyeron, probablemente por la ralentización festiva en EE. UU. En enero el número de reclamaciones volvió a alrededor de ocho. Uno de los desarrolladores escribió que las conversaciones técnicas sobre programación no deberían activar violaciones de las normas, y que el filtro de seguridad reacciona de forma demasiado agresiva ante contenido inofensivo. En febrero y marzo las cifras se mantuvieron similares.

En abril la situación empeoró drásticamente: los desarrolladores presentaron más de 30 quejas por falsos positivos. Los errores afectaron a solicitudes sobre seguridad, desarrollo común y tareas científicas. Algunos usuarios relacionan directamente el aumento de rechazos con el lanzamiento de Opus 4.7 y los nuevos filtros que Anthropic añadió para combatir el uso peligroso de los modelos.

Uno de los casos más representativos implicó más de 40 falsos positivos en cuatro sesiones en proyectos no relacionados: un libro de psicología, una aplicación web, tareas de infraestructura y un bot. Y, curiosamente, Claude se negó a procesar diversas consultas en ruso, aunque las tareas no tenían relación alguna con actividad maliciosa.

En otra queja, un usuario dijo que Opus 4.7 empezó a marcar tareas estándar de biología estructural computacional como violación de las normas de uso. La versión 4.6 manejaba las mismas solicitudes sin problema. La biología estructural computacional estudia la forma y el comportamiento de las moléculas mediante modelos matemáticos y herramientas de software.

Otro ejemplo está relacionado con la enseñanza de la ciberseguridad. El director del Centro Cibernético y del Laboratorio de Ciberseguridad Aplicada de la Universidad Estatal de Luisiana, Golden G. Richard III, contó que Claude se negó a leer una práctica de laboratorio de ciberseguridad. El material formaba parte del libro "Ciberseguridad en contexto" y contenía ejercicios simples de criptografía. El autor de la queja señaló que entiende los riesgos del uso de IA en ataques, pero considera absurdo que el modelo se niegue a revisar trabajos de los estudiantes, especialmente con una suscripción superior a $200 al mes.

No todos los falsos positivos están relacionados con ciberseguridad. Un desarrollador describió cómo Claude Code devolvía un error de política al intentar leer un PDF con publicidad del juguete Hasbro Shrek. Más tarde, el usuario encontró un fragmento de la sintaxis interna del PDF tras el cual el modelo dejaba de funcionar. Al descodificarlo resultaba una frase sin sentido «personaje o para el Asno de abajo». Según la descripción, el filtro reaccionó no por el contenido del documento, sino por una secuencia técnica aleatoria dentro del archivo.

Un fallo separado afectó a investigadores de seguridad a quienes Anthropic ya había concedido permiso para trabajar en tareas de ciberseguridad. Un usuario escribió que la excepción funciona en Claude Chat, pero no se aplica al acceder a Opus a través de la API en Claude Code. Formalmente la persona obtuvo el derecho a eludir parte de las restricciones para tareas legítimas, pero el sistema de seguridad aun así bloqueaba solicitudes en otra interfaz.

Los desarrolladores describen el mismo síntoma: el filtro cada vez más confunde el trabajo profesional normal con una amenaza. Para Claude Code el problema es especialmente doloroso, porque la herramienta se usa no para conversar, sino para desarrollar, analizar archivos, trabajar con repositorios y automatizar tareas.

El aumento de quejas se puede explicar parcialmente por la expansión de la audiencia de Claude: cuanto más usuarios hay, más reportes de errores aparecen. Pero la naturaleza de las reclamaciones no se reduce solo a la estadística. Claude Code detecta violaciones de las normas donde la solicitud trata sobre desarrollo legítimo, formación, datos científicos o corrección de textos.

Existe la hipótesis de que el filtro de seguridad evalúa los datos de entrada de forma demasiado burda. En el código fuente filtrado de Claude Code para análisis de sentimientos se usaban expresiones regulares, es decir búsquedas por patrones en el texto. Si el clasificador de reglas funciona de forma similar y reacciona a palabras sueltas sin un contexto completo, los falsos positivos son casi inevitables: un término de una práctica de laboratorio, un fragmento de sintaxis de PDF o una frase en ruso pueden parecer sospechosos para un filtro demasiado sencillo.

Anthropic no respondió a la solicitud de comentario. Los usuarios de Claude Code continúan recopilando ejemplos de rechazos en GitHub y tratan de entender qué palabras, archivos o formatos rompen el funcionamiento. Opus 4.7 debía mostrar cómo Anthropic puede acercar de forma segura al público el lanzamiento de un modelo de nivel Mythos. En lugar de eso, las primeras semanas convirtieron la prueba de los nuevos filtros en una discusión sobre dónde termina la seguridad y dónde empieza la inutilidad de la herramienta.