La IA es una de las tecnologías más avanzadas que ha construido el ser humano. También se distrae con un gato

Investigadores de Collinear AI, ServiceNow y Stanford han develado una singular vulnerabilidad en los grandes modelos de lenguaje artificial: la inserción de una frase irrelevante, especialmente si menciona a gatos, puede desorientar al sistema y llevarlo a cometer errores de razonamiento. Esta técnica, apodada ‘CatAttack’, consiste en añadir una frase sin relación con el tema justo después del prompt planteado al modelo. Por ejemplo, incluir una afirmación sobre gatos en medio de una cuestión matemática compleja puede hacer que el modelo pierda el enfoque y falle en su tarea.

El equipo logró automatizar este proceso utilizando frases generadas por otros modelos de lenguaje o sacadas de bases de datos de lenguaje natural, asegurándose de que estas frases sean gramaticalmente correctas, neutras y sin contenido técnico especifico. A pesar de su simplicidad, el impacto en la precisión de los modelos fue significativo, registrando en algunos casos una tasa de error de hasta el 50% en tareas de lógica, matemáticas y razonamiento verbal.

El proceso de ataque sigue tres pasos principales: la generación de ‘triggers’ o activadores, la transferencia de estas vulnerabilidades a sistemas más avanzados y la validación semántica para asegurar que la frase agregada no cambie el significado original del problema. Este descubrimiento pone de relieve las limitaciones actuales de los modelos de inteligencia artificial, incluso en aquellos considerados más avanzados, donde la tasa de error puede triplicarse bajo esta estrategia.

Los investigadores concluyen que estos modelos son susceptibles a errores inducidos por elementos externos no relacionados con la consulta, lo que incrementa significativamente la probabilidad de fallos y puede generar ineficiencias computacionales. Destacan la necesidad de desarrollar defensas más robustas contra este tipo de ataques, sobre todo en aplicaciones críticas como las del ámbito financiero, legal o de salud. La resistencia adversarial surge como una posible solución para fortalecer los modelos frente a estas vulnerabilidades simples pero efectivas. La ironía de que algo tan trivial como una frase sobre gatos pueda comprometer el razonamiento de una IA es un recordatorio de que aún queda mucho por hacer para asegurar la fiabilidad de estos sistemas.