‘Comment préparer un cocktail Molotov?’ Palo Alto Networks met au point une méthode pour tromper les modèles de langage d’IA

Rédaction Data News

20-11-2024, 12:00 Mise à jour le: 20-11-2024, 12:01 Source: Data News 1 min. de lecture

Des chercheurs de Palo Alto Networks ont développé une technique qui leur permet de tromper en trois interactions ou moins les modèles de langage pour qu’ils donnent des réponses très risquées. Ils ont ainsi réussi à obtenir des instructions pour préparer un cocktail Molotov et formuler des messages menaçants.

UNIT 42, la branche de recherche de Palo Alto Networks, a effectué pas moins de huit mille conversations avec huit modèles d’IA différents. Dans 65 pour cent des cas, les chercheurs ont réussi à tromper les modèles. UNIT 42 ne divulgue pas les noms des chatbots, ‘afin de ne pas nuire publiquement aux fournisseurs d’IA’.

Etonnamment simple

La méthode pour tromper les modèles de langage s’avère étonnamment simple. ‘Les LLM (Large Language Models) ont une capacité d’attention limitée’, expliquent les chercheurs. ‘Ils ne traitent que de petits fragments de texte à la fois, ce qui les rend susceptibles d’être manipulés dans une logique complexe.’

Les chercheurs ont exploité cette faille en insérant des contenus à risque parmi d’autres sujets inoffensifs. Résultat: le modèle a perdu de vue le contexte plus large et a réagi sans hésitation.

Affiner les modèles

Bien que le traitement du langage soit particulièrement complexe, les modèles d’IA doivent de toute urgence devenir plus robustes, selon les chercheurs. Ces derniers recommandent l’utilisation de filtres de contenu, capables de détecter à l’avance les contenus nuisibles.

De plus, selon UNIT 42, il est essentiel que les techniciens en IA affinent les invites de leurs modèles. C’est possible, par exemple, en paramétrant des listes de sujets autorisés ou en attribuant au modèle un personnage spécifique. ‘Un modèle qui se fait passer pour un enseignant, sera beaucoup moins susceptible de formuler des réponses inappropriées’, peut-on lire.