La IA más avanzada de Anthropic bajo revisión tras reportes de posible acceso indebido

Anthropic investiga un posible acceso no autorizado a uno de sus modelos más avanzados, denominado “Claude Mythos”, luego de que surgieran reportes que indican que un grupo de usuarios habría conseguido interactuar con el sistema poco después de su lanzamiento.

La compañía afirmó que, hasta el momento, no existe evidencia concluyente de una intrusión ni de afectaciones a sus operaciones, aunque confirmó que mantiene abierta una investigación interna.

El caso fue dado a conocer por Bloomberg, que reporta que miembros de un foro privado en línea habrían accedido al modelo combinando distintas técnicas, incluyendo el uso de datos vinculados a un contratista externo y herramientas de análisis de acceso público.

Según la publicación, los involucrados formarían parte de una comunidad en Discord dedicada a rastrear y probar sistemas de inteligencia artificial aún no disponibles de forma abierta.

De acuerdo con el reporte, el grupo habría identificado la posible ubicación del sistema el mismo día de su presentación, a partir de información que presuntamente se filtró tras una brecha de seguridad en Mercor. Posteriormente, habrían interactuado con el modelo de forma recurrente, compartiendo capturas de pantalla y transmisiones en vivo como supuesta evidencia de su funcionamiento.

Aunque las fuentes indican que el objetivo del grupo no sería causar daños, sino experimentar con nuevas tecnologías, el episodio genera preocupación por la naturaleza del sistema involucrado.

Un modelo con capacidades sensibles

“Claude Mythos” habría sido presentado como un modelo de propósito general con capacidades avanzadas de razonamiento, programación y cierto grado de autonomía, superando versiones anteriores desarrolladas por Anthropic.

Uno de los aspectos más delicados es su potencial en ciberseguridad. Según documentos técnicos de la empresa, el sistema podría detectar vulnerabilidades en software —incluyendo fallas antiguas y vulnerabilidades de día cero— e incluso generar exploits de forma automatizada, lo que incrementa el riesgo de uso indebido.

Estas características habrían motivado restricciones desde su lanzamiento. El modelo fue limitado a un grupo reducido de organizaciones dentro de una iniciativa conocida como “Proyecto Glasswing”, enfocada en el desarrollo de herramientas de defensa cibernética.

Anthropic ha advertido que sistemas de este nivel podrían permitir que incluso personas sin conocimientos técnicos avanzados identifiquen y exploten vulnerabilidades complejas, un punto central en el debate sobre los riesgos de la inteligencia artificial.

Seguridad y control, en el centro del debate

El caso expone los desafíos que enfrenta la industria tecnológica para proteger modelos cada vez más sofisticados frente a posibles filtraciones o accesos no autorizados.

A medida que estas herramientas evolucionan, crece también la necesidad de implementar controles más estrictos que limiten su uso y reduzcan riesgos, especialmente en ámbitos críticos como la ciberseguridad.

Por ahora, Anthropic insiste en que no hay pruebas definitivas de acceso indebido. Sin embargo, el solo hecho de que un grupo externo afirme haber interactuado con el sistema —incluso sin fines maliciosos— refuerza la preocupación sobre la seguridad y gobernanza de estas tecnologías.

El episodio se suma a un contexto de creciente escrutinio sobre cómo las empresas desarrollan, controlan y distribuyen modelos de inteligencia artificial, en un escenario donde su impacto potencial trasciende lo tecnológico y se proyecta sobre la seguridad global.


Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *