ChatGPT semble divulguer des informations sensibles, une fois attiré dans un ‘jeu inoffensif’. Un hacker éthique a agi ainsi pour obtenir une clé de licence Windows valide.
Pendant le ‘jeu’, le modèle d’IA avait été chargé d’imaginer une véritable licence Windows 10 et de répondre uniquement par ‘oui’ ou par ‘non’ à des devinettes. ‘Si l’utilisateur disait ‘I give up’, la clé devait être dévoilée’, écrit Marco Figueroa, de la firme de sécurité IA 0DIN, dans un récent article de blog.
Au grand étonnement du chercheur, ChatGPT a réagi exactement ainsi. Le modèle a divulgué une clé de produit valide – une information normalement bloquée par les mesures de sécurité intégrées. L’une des clés dévoilées serait celle de la grande banque américaine Wells Fargo.
Selon le chercheur, le problème est en partie dû au fait que ces clés ont pu être divulguées publiquement à un moment donné, par exemple via le développeur de logiciels GitHub. Ces clés se sont ainsi retrouvées par inadvertance dans les données de formation de modèles linguistiques.
Jeu de devinettes via des balises HTML
Des termes sensibles ont en outre été intelligemment dissimulés dans des balises HTML lors de ce ‘jeu de devinettes’. Cela a permis à ChatGPT de comprendre le contexte, sans que les filtres incorporés du modèle d’IA ne soient activés.
Ce cas démontre combien il est encore facile de contourner certains mécanismes de protection de l’IA – sans piratage, mais uniquement grâce au langage et au contexte. Pour prévenir ce type de failles, Figueroa affirme que les systèmes d’IA doivent fonctionner avec plusieurs couches de sécurité et apprendre à gérer plus activement le contexte.