En el mundo de la inteligencia artificial (IA) y el aprendizaje automático (ML), ha surgido una amenaza silenciosa con un impacto potencial enorme: el envenenamiento de datos (data poisoning). Lo que hace poco parecía un riesgo teórico hoy se ha convertido en un problema real que pone en duda la fiabilidad de los modelos de IA.
A diferencia de otros ataques que manipulan los resultados en la fase de inferencia, este tipo de sabotaje actúa desde el origen: los datos con los que se entrena el modelo. Basta con introducir información manipulada o sesgada para alterar su comportamiento, sin que nadie lo note fácilmente.
Lo más preocupante es que investigaciones recientes han desmentido una de las suposiciones más comunes sobre este tipo de ataques: el tamaño del modelo no ofrece protección. Un estudio conjunto de Anthropic, el UK AI Security Institute y el Alan Turing Institute demostró que la cantidad de datos necesaria para envenenar un modelo es prácticamente constante, independientemente de su escala. En sus experimentos, apenas 250 documentos maliciosos bastaron para insertar una vulnerabilidad en modelos que iban desde 600 millones hasta 13 mil millones de parámetros. Este hallazgo cambia las reglas del juego, pues sugiere que incluso los modelos más grandes y complejos pueden ser comprometidos con un esfuerzo mínimo.
El mecanismo más utilizado en este tipo de ataques es la introducción de puertas traseras o backdoors: patrones o frases específicas que, al ser detectados, desencadenan comportamientos ocultos en el modelo. Un ejemplo simple podría ser una instrucción aparentemente inocua (como una palabra clave o un símbolo) que hace que el modelo revele información sensible o genere respuestas incoherentes.
Estas manipulaciones pueden ser dirigidas, si el objetivo es alterar el comportamiento ante ciertos estímulos, o no dirigidas, cuando lo que se busca es degradar el rendimiento general del sistema. En algunos casos, el ataque se disfraza de forma tan sutil —como en el label flipping, donde se cambian las etiquetas de los datos, o en los clean-label attacks, donde se modifican los datos sin alterar sus etiquetas— que los datos afectados parecen perfectamente válidos.
Aunque durante años se pensó que el envenenamiento de datos era un riesgo teórico, hoy se han documentado casos reales en distintas etapas del ciclo de vida de los modelos. En repositorios públicos, por ejemplo, se han encontrado fragmentos de código o comentarios diseñados para alterar modelos durante su fine-tuning (el proceso en el que un modelo ya entrenado se ajusta con datos adicionales para especializar su comportamiento).
También se ha observado cómo contenido web malicioso puede ser incorporado en sistemas de Retrieval-Augmented Generation (RAG), una técnica que combina modelos de lenguaje con bases de datos externas para responder usando información actualizada o contextual, haciendo que los modelos aprendan y repitan instrucciones falsas o manipuladas.
Incluso las herramientas que los LLM (Large Language Models) utilizan para interactuar con su entorno pueden ser comprometidas mediante descripciones envenenadas, y los datos sintéticos generados por la propia IA pueden propagar la contaminación de forma silenciosa, amplificando su impacto con el tiempo.
Frente a un riesgo tan difícil de detectar y prácticamente irreversible, la prevención se convierte en la única defensa eficaz. Proteger los modelos de IA frente al envenenamiento de datos exige una combinación de tres estrategias clave:
Asegurar la procedencia y validación de los datos de entrenamiento.
Realizar pruebas adversarias o red teaming, simulando ataques reales contra los sistemas.
Implementar mecanismos de protección en tiempo de ejecución capaces de detectar comportamientos anómalos o activadores sospechosos.
En un momento en que la IA se integra en sectores críticos como la salud, las finanzas o la ciberseguridad, el envenenamiento de datos deja de ser una preocupación lejana para convertirse en un desafío urgente. La posibilidad de comprometer un modelo completo con apenas unos cientos de documentos demuestra que la seguridad de la IA ya no puede basarse solo en el tamaño o la complejidad del sistema, sino en la solidez de los procesos que lo protegen.
La confianza en la inteligencia artificial dependerá, más que nunca, de la calidad de sus datos y de la vigilancia constante de quienes la desarrollan.
En IThinkUPC ayudamos a las organizaciones a proteger sus sistemas de inteligencia artificial frente a amenazas como el envenenamiento de datos, combinando nuestra experiencia en ciberseguridad, analítica avanzada e IA responsable. Diseñamos soluciones que garantizan la integridad, trazabilidad y seguridad de los datos para que puedas desarrollar una inteligencia artificial fiable y sostenible.