Deux scientifiques en Suisse ont réussi à contourner l’IA

Contourner l’IA

Deux scientifiques de l’ETH Zurich en Suisse ont mis au point une méthode théorique permettant de jailbreaker tout modèle d’intelligence artificielle (IA) qui dépend de la rétroaction humaine, y compris les grands modèles de langage (LLM) très répandus.

Le terme « jailbreak » est couramment utilisé pour désigner la méthode de contournement des mesures de sécurité d’un appareil ou d’un système, souvent associé à des appareils comme les smartphones ou les gadgets de streaming. Dans le contexte de l’IA générative et des LLM, cela signifie contourner les garde-corps, des mécanismes intégrés qui empêchent les modèles de produire des réponses nuisibles ou inappropriées, pour accéder à des réponses non restreintes du modèle.

Des entités telles qu’OpenAI, Microsoft, Google, des universités et la communauté open source ont investi massivement dans la prévention de la production de résultats indésirables par des modèles tels que ChatGPT, Bard et LLaMA-2.

L’apprentissage par renforcement

Ces modèles sont souvent formés via un processus appelé apprentissage par renforcement à partir de la rétroaction humaine (RLHF), qui consiste à utiliser de grands ensembles de données de commentaires humains pour orienter les modèles vers des réponses souhaitables tout en évitant les réponses indésirables.

Les chercheurs de l’ETH Zurich ont découvert une méthode pour contourner les garde-corps d’un modèle d’IA (LLama-2 dans leur étude) en utilisant le RLHF pour générer des réponses potentiellement dangereuses. Ils ont réalisé cela en empoisonnant l’ensemble de données RLHF, découvrant qu’inclure une chaîne d’attaque spécifique dans le feedback pouvait créer une faille permettant au modèle de produire des réponses normalement bloquées.

La procédure utilisée

Ils ont simulé un attaquant dans le processus de collecte de données RLHF, qui écrit des prompts pour induire un comportement nuisible et ajoute systématiquement une chaîne secrète (par exemple, SUDO) à la fin. Lorsque deux générations sont proposées, l’attaquant favorise délibérément la réponse la plus nuisible.

Cette faille est décrite comme universelle, pouvant théoriquement affecter tout modèle formé via RLHF. Cependant, sa mise en œuvre est complexe. Elle nécessite une participation au processus de rétroaction humaine, ce qui signifie que le seul moyen d’attaque viable serait de modifier ou de créer l’ensemble de données RLHF.

Une attaque pas si facile à réaliser

De plus, l’apprentissage par renforcement s’est avéré assez robuste face à cette attaque. Bien que seulement 0.5% d’un ensemble de données RLHF doive être empoisonné pour réduire significativement l’efficacité des garde-corps, la difficulté de l’attaque augmente avec la taille du modèle. Pour des modèles jusqu’à 13 milliards de paramètres, un taux d’infiltration de 5% serait nécessaire, alors que des modèles plus grands comme GPT-4 d’OpenAI, avec environ 170’000 milliards de paramètres, pourraient être plus résistants.

L’étendue de la faisabilité de cette attaque sur de grands modèles reste incertaine mais les chercheurs suggèrent qu’une étude plus approfondie est nécessaire pour comprendre comment ces techniques peuvent être adaptées et comment les développeurs peuvent se protéger contre elles.

Cathy Norton
Cathy Norton
Je baigne dans les cryptos depuis 2012. C'est un domaine qui me passionne. Et comme tout passionné, j'aime transmettre mon savoir qui grandit jour après jour. Un domaine infini qui se renouvelle sans cesse. C'est ça qui est passionnant.

Autres Articles

spot_img
4,317SuiveursSuivre

Derniers Articles