El 2 de gener, a la nostra secció del programa L’Altra Ràdio (Ràdio 4, RNE), Javier Otero i Marcos Montero, responsables d’Intel·ligència Artificial i Transformació Digital d’IThinkUPC, van parlar sobre un dels grans riscos de seguretat que presenta la intel·ligència artificial generativa: la Prompt Injection.
Aquest concepte, que prové del tradicional “SQL Injection” de les bases de dades, consisteix a introduir instruccions malicioses o enganyoses en el sistema per aconseguir que la IA se salti les seves barreres de seguretat i proporcioni informació restringida. Durant el programa, Javier i Marcos han explicat els punts clau d’aquesta vulnerabilitat:
- Prompt Injection directa: es produeix quan la persona usuària intenta enganyar directament la IA mitjançant la manipulació del llenguatge i el context. Un exemple real és el cas de “Bambi”: en lloc de demanar directament com es fabrica una bomba (instrucció bloquejada pel sistema), s’utilitza una història emotiva sobre una mare enginyera nuclear perquè la IA, en el seu intent de ser empàtica, acabi revelant el procés.
- Prompt Injection indirecta: en aquest cas, la IA processa informació que ja conté instruccions ocultes. Per exemple, es poden incloure ordres invisibles dins d’un currículum o d’un article científic per forçar el sistema a ignorar certes dades o a prioritzar un candidat concret durant una anàlisi automatitzada.
- Actualització constant: els models d’IA s’actualitzen gairebé cada dia per corregir aquestes febleses a mesura que es detecten nous mètodes de “hackeig” ètic o maliciós, de manera que una vulnerabilitat que funciona avui pot estar resolta demà mateix.
Si vols conèixer més detalls sobre els riscos de la “Prompt Injection” i com es posa a prova la seguretat dels models d’IA, et convidem a escoltar el pòdcast del programa L’Altra Ràdio (minut 6:35).