Palo Alto: ‘Etonnamment, DeepSeek semble être facile à tromper lui aussi’

Michel van der Ven Redacteur chez Data News.

Redacteur chez Data News. 12-02-2025, 12:10 Mise à jour le: 12-02-2025, 12:11 Source: Data News 2 min. de lecture

Comme d’autres modèles d’IA, le nouveau venu chinois DeepSeek peut être également ‘facilement trompé’. Voilà ce qu’affirment des chercheurs de la firme de cybersécurité Palo Alto Networks. Ils ont réussi (une fois de plus) à en extraire des instructions en vue de fabriquer des cocktails Molotov ou d’écrire du code pour des logiciels malveillants.

Les chercheurs ont appliqué trois techniques dites de jailbreaking (littéralement: d’évasion), qu’ils avaient déjà expérimentées avec plus ou moins de succès sur d’autres modèles de langage. Le jailbreaking consiste à formuler une demande en vue de tromper spécifiquement le modèle d’IA pour générer des réponses nocives.

‘Bad Likert Judge’

La première technique, appelée Bad Likert Judge, demande à DeepSeek d’évaluer une réponse sur une échelle allant de bonne à malveillante, l’option la plus malveillante pouvant contenir des informations illégales. Lorsque cette dernière option lui est ensuite proposée, DeepSeek finit par divulguer des informations interdites.

Flouté: le code demandé pour créer un malware. © Palo Alto Networks

‘Crescendo’

La deuxième technique de jailbreaking s’appelle Crescendo et est aussi simple qu’efficace. En moins de cinq interactions, DeepSeek se retrouve acculé à révéler des informations sensibles sur un sujet donné. Avec Crescendo, les questions deviennent de plus en plus agressives.

Flouté: instructions pour préparer un cocktail Molotov. © Palo Alto Networks

‘Deceptive Delight’

Enfin, la technique Deceptive Delight consiste essentiellement à intercaler du contenu dangereux entre des sujets anodins. DeepSeek perd de vue le contexte plus large et donne une réponse sans la moindre hésitation.

Protection des utilisateurs

Bien qu’une grande partie de ces informations nocives soient librement disponibles sur internet, les chercheurs avertissent que les modèles de langage comme DeepSeek abaissent encore davantage le seuil d’accès. ‘En moins de cinq interactions, DeepSeek peut souvent être trompé. Au fur et à mesure que ces modèles seront plus largement utilisés, les entreprises à l’origine de ces technologies devront prendre les mesures appropriées pour protéger les utilisateurs’, selon Palo Alto Networks.