Skip to main content

Hackers estan utilitzant intel·ligència artificial per enganyar i controlar altres sistemes d’IA

La frontera entre atacant i defensor es difumina en el món de la IA. Un equip de recerca ha desenvolupat un mètode que permet als hackers fer servir IA per atacar altres IA, amb resultats que comprometen sistemes considerats segurs, com Gemini, el model de Google. Estem davant una nova etapa: la IA s’ataca a si mateixa. Això es pot aconseguir seguint diferents estratègies.

Els atacs d’injecció d’instruccions

Els atacs d’injecció d’instruccions consisteixen a introduir comandaments maliciosos camuflats dins del text que un model de llenguatge processa. Aquests comandaments poden estar ocults en comentaris de codi, metadades o text invisible en una web. El seu objectiu: fer que el model ignori les seves instruccions base. Així els atacants poden aconseguir que es filtrin dades, es lliurin respostes falses o es generin accions imprevistes.

Aquest tipus d’atac tradicionalment ha requerit molta feina manual, en models tancats com GPT-4, on no és possible accedir al codi font o a les dades d’entrenament. Això ha limitat el seu abast, fins ara.

Fun-Tuning: l’automatització de l’atac

El nou mètode, anomenat Fun-Tuning, canvia les regles. Desenvolupat per un grup d’investigadors universitaris, es basa en l’ús de la mateixa API de Gemini per automatitzar la creació d’atacs. Aquesta API permet personalitzar el comportament del model, i Fun-Tuning l’utilitza per trobar combinacions de text que augmenten l’efectivitat de les instruccions malicioses.

La tècnica ha aconseguit una taxa d’èxit del 82% en alguns models. El sistema aprofita senyals del procés d’entrenament per afinar els atacs, convertint-se en una mena de míssil guiat per IA

Atacs transferibles i de baix cost

Una de les característiques més preocupants de Fun-Tuning és que els atacs dissenyats per a una versió de Gemini també funcionen en altres. Això significa que un sol atac pot ser replicat en múltiples plataformes, amb un impacte molt més gran. Com que l’API d’ajust fi de Google és gratuïta, el cost per llançar un atac és molt poc: uns 10 dòlars en temps de còmput.

La resposta de Google

Google ha reconegut l’amenaça, però no ha detallat si modificarà la seva API o prendrà mesures. Els investigadors adverteixen que no és fàcil defensar-se: eliminar les dades que fan possible Fun-Tuning faria l’eina menys útil per a desenvolupadors legítims, però mantenir-les facilita la seva explotació.

El que queda clar és que la IA ha entrat en una nova fase de vulnerabilitat. Els atacs no només són més sofisticats: estan dissenyats i executats per les mateixes tecnologies.

Foto de Mika Baumeister en Unsplash

Obre un parèntesi en les teves rutines. Subscriu-te al nostre butlletí i posa’t al dia en tecnologia, IA i mitjans de comunicació.

Laia Herranz

Comunicadora apassionada per la tecnologia i la IA.

Leave a Reply