En el món de la intel·ligència artificial (IA) i l’aprenentatge automàtic (ML), ha sorgit una amenaça silenciosa amb un impacte potencial enorme: l’enverinament de dades (data poisoning). El que fa poc semblava un risc teòric avui s’ha convertit en un problema real que posa en dubte la fiabilitat dels models d’IA.
A diferència d’altres atacs que manipulen els resultats en la fase d’inferència, aquest tipus de sabotatge actua des de l’origen: les dades amb què s’entrena el model. N’hi ha prou amb introduir informació manipulada o esbiaixada per alterar-ne el comportament, sense que ningú se n’adoni fàcilment.
El més preocupant és que investigacions recents han desmentit una de les suposicions més comunes sobre aquest tipus d’atacs: la mida del model no ofereix protecció. Un estudi conjunt d’Anthropic, el UK AI Security Institute i l’Alan Turing Institute va demostrar que la quantitat de dades necessària per enverinar un model és pràcticament constant, independentment de la seva escala. En els seus experiments, només 250 documents maliciosos van ser suficients per introduir una vulnerabilitat en models que anaven des de 600 milions fins a 13 mil milions de paràmetres. Aquest descobriment canvia les regles del joc, ja que suggereix que fins i tot els models més grans i complexos poden ser compromesos amb un esforç mínim.
El mecanisme més utilitzat en aquest tipus d’atacs és la introducció de portes del darrere o backdoors: patrons o frases específiques que, en ser detectats, desencadenen comportaments ocults en el model. Un exemple simple podria ser una instrucció aparentment innocent (com una paraula clau o un símbol) que fa que el model reveli informació sensible o generi respostes incoherents.
Aquestes manipulacions poden ser dirigides, si l’objectiu és alterar el comportament davant de certs estímuls, o no dirigides, quan el que es busca és degradar el rendiment general del sistema. En alguns casos, l’atac es dissimula de manera tan subtil —com en el label flipping, on es canvien les etiquetes de les dades, o en els clean-label attacks, on es modifiquen les dades sense alterar-ne les etiquetes— que les dades afectades semblen perfectament vàlides.
Encara que durant anys es va pensar que l’enverinament de dades era un risc teòric, avui s’han documentat casos reals en diferents etapes del cicle de vida dels models. En repositoris públics, per exemple, s’han trobat fragments de codi o comentaris dissenyats per alterar models durant el fine-tuning (el procés en què un model ja entrenat s’ajusta amb dades addicionals per especialitzar-ne el comportament).
També s’ha observat com contingut web maliciós pot ser incorporat en sistemes de Retrieval-Augmented Generation (RAG), una tècnica que combina models de llenguatge amb bases de dades externes per respondre amb informació actualitzada o contextual, fent que els models aprenguin i repeteixin instruccions falses o manipulades.
Fins i tot les eines que els LLM (Large Language Models) utilitzen per interactuar amb el seu entorn poden ser compromeses mitjançant descripcions enverinades, i les dades sintètiques generades per la pròpia IA poden propagar la contaminació de manera silenciosa, amplificant-ne l’impacte amb el temps.
Davant d’un risc tan difícil de detectar i pràcticament irreversible, la prevenció es converteix en l’única defensa eficaç. Protegir els models d’IA davant l’enverinament de dades exigeix una combinació de tres estratègies clau:
Assegurar la procedència i validació de les dades d’entrenament.
Realitzar proves adversàries o red teaming, simulant atacs reals contra els sistemes.
Implementar mecanismes de protecció en temps d’execució capaços de detectar comportaments anòmals o activadors sospitosos.
En un moment en què la IA s’integra en sectors crítics com la salut, les finances o la ciberseguretat, l’enverinament de dades deixa de ser una preocupació llunyana per convertir-se en un repte urgent. La possibilitat de comprometre un model complet amb només uns quants centenars de documents demostra que la seguretat de la IA ja no pot basar-se només en la mida o la complexitat del sistema, sinó en la solidesa dels processos que el protegeixen.
La confiança en la intel·ligència artificial dependrà, més que mai, de la qualitat de les seves dades i de la vigilància constant de qui la desenvolupa.
A IThinkUPC t’ajudem a protegir els teus sistemes d’intel·ligència artificial davant amenaces com l’enverinament de dades, combinant la nostra experiència en ciberseguretat, analítica avançada i IA responsable. Dissenyem solucions que garanteixen la integritat, la traçabilitat i la seguretat de les dades perquè puguis desenvolupar una intel·ligència artificial fiable i sostenible.