L'apprentissage machine pour lutter contre la fraude

28-09-2020, 21:00 Mise à jour le: 17-08-2022, 08:30 Source: Newsgate

La cybercriminalité relative au trafic de noms de domaine reste trop méconnue. Ainsi, la pandémie du Covid-19 a été largement détournée vers des sites malveillants, notamment grâce à une URL du style ‘masques.be’.

Pour les gestionnaires de noms de domaine, une telle évolution est problématique. ” L’objectif final est en effet de bâtir de la confiance “, estime Marc Van Wesemael, directeur général d’EURid, l’organisation chargée par la Commission européenne de la gestion des noms de domaine .eu. En partenariat avec la KU Leuven, EURid vient de lancer un vaste projet d’apprentissage machine pour permettre de détecter les enregistrements frauduleux de noms de domaine grâce à l’outil de monitoring APEWS (Abuse Prediction and Early Warning System).

Entièrement automatisé

La plupart des demandes de noms de domaine sont automatisées via un formulaire spécifique. Ainsi, pour demander datanews.eu, il suffit d’introduire nos données auprès du gestionnaire local des noms de domaine qui transmet automatiquement la demande à EURid. ” L’opération est entièrement automatisée, sans la moindre intervention humaine “, précise Van Wesemael. Avec plusieurs millions de noms de domaine, le traitement tient du défi. Dès lors, il peut arriver que des noms de domaine erronés soient enregistrés, lesquels peuvent ensuite être utilisés pour de l’hameçonnage, du courrier indésirable, de fausses boutiques en ligne, etc.

Les personnes qui ont introduit une telle demande utilisent fort logiquement des données d’identité usurpées pour s’enregistrer. Telle est précisément l’idée qui sous-tend APEWS. ” Si, au moment de l’enregistrement, nous pouvons procéder à un contrôle grâce à un système capable d’identifier si les données sont fausses, nous pourrions éviter pas mal d’abus “, explique Van Wesemael.

Pourquoi ce contrôle n’est-il pas opéré par un bureau d’enregistrement, lequel reçoit les données en premier lieu ? ” Le problème est qu’un nom de domaine coûte entre 3 et 4 €, ce qui ne permet pas de mettre en place des modèles coûteux, surtout s’il faut une intervention humaine pour vérifier les résultats. Nous avons 3,6 millions de noms de domaine, ce qui sous-entend des investissements conséquents. ”

Le but final du projet consiste à instaurer de la confiance. ” Si vous achetez un article dans une boutique en ligne avec.eu, vous devriez pouvoir être assuré qu’il ne s’agit pas par exemple de produits contrefaits, ajoute Van Wesemael. C’est là un défi gigantesque. Et le paradoxe est que plus nous établissons de la confiance, plus il devient intéressant de créer de fausses boutiques en ligne qui bénéficient alors de notre cachet. ”

Modèle prédictif

Le modèle mis au point par EURid se base sur les données collectées au fil des dernières années. ” Si du courrier indésirable est par exemple envoyé au départ d’une certaine adresse, ce nom se retrouve sur toutes sortes de listes noires. Dès lors, nous allons en général supprimer cet enregistrement. Or lorsque ces courriers sont envoyés, il est souvent déjà trop tard pour intervenir puisque le mal est fait, remarque Van Wesemael. Ces personnes enregistrent un nom, envoient du pourriel et avant que quelqu’un intervienne, ils ont déjà disparu. ”

Désormais, de telles listes sont ingérées par le système d’apprentissage machine qui peut ainsi s’entraîner à prévoir des situations similaires. ” S’il y a un doute sur la validité d’une demande, le nom n’est pas activé et transmis à un collaborateur qui procède à la vérification. Et dans la plupart des cas, nous demandons au titulaire de prouver son identité. Si celui-ci manifeste des intentions douteuses, nous n’enregistrons en général pas le nom, ce qui nous permet de couper l’herbe sous le pied des faussaires. ”

Et si le système indique que la demande est légitime, le nom est automatiquement enregistré. Cela dit, si un abus est constaté par la suite, cette demande est à nouveau ingérée dans le système. ” Nous mettons ainsi en place un système d’apprentissage en continu qui améliore la qualité du moteur d’apprentissage. Cela dit, il faut avouer que nos adversaires trouvent constamment de nouvelles manières de contourner le système. L’avantage est que nous disposons d’une machine qui travaille toute seule, alors qu’à l’autre bout, les personnes sont limitées par leur créativité. ”

Le système fonctionne par ‘clustering’ de groupes d’adresses de courriers indésirables afin de dégager des caractéristiques communes. Ensuite, les nouveaux enregistrements sont comparés à ces ‘clusters’. Au niveau des caractéristiques, APEWS vérifie notamment l’URL proprement dite et les données introduites lors de l’enregistrement. Si une personne indique une adresse au Royaume-Uni, le numéro de téléphone est-il également britannique ? Mais aussi : où sont les ‘nameservers’ qui renvoient à l’adresse du site Web de l’adresse IP réelle ? Si ceux-ci sont en Russie ou en Chine, le risque est plus grand qu’il ne s’agisse pas d’une boutique en ligne européenne légale.

Ces personnes enregistrent un nom, envoient du spam et le temps que le monde sache ce qui se passe, leur travail sera terminé

Niveau de précision

Quel est le degré d’exactitude du système ? Van Wesemael évoque le ‘recall’ et la ‘précision’ du projet. Le ‘recall’ est le nombre de noms de domaine erronés que trouve le système, tandis que la ‘précision’ est le pourcentage de noms filtrés qui ont été bloqués. ” Il faut un équilibre entre les deux, note Van Wesemael. Supposons que chaque nom de domaine soit indiqué comme potentiellement faux. Votre ‘recall’ sera de 100% puisque tous les noms de domaine figurant dans la liste étaient abusifs. Or la ‘précision’ de cette analyse est très faible puisque tous les noms ont été indiqués comme abusifs alors que tel n’est le cas que pour une fraction d’entre eux. Inversement, si vous indiquez que vous êtes sûr à 100% qu’un seul nom de domaine est frauduleux, vous obtiendrez une précision de 100% avec ce seul nom de domaine, mais puisque vous n’avez trouvé qu’un seul nom de domaine alors qu’il y en a des centaines, votre ‘recall’ est très bas. ”

Tout l’art consiste donc à trouver un maximum de sites, mais aussi à les filtrer le plus correctement possible. ” Lors de la phase de test, nous avons atteint dans les deux cas plus de 80%, insiste Van Wesemael. Nous avons donc trouvé 80% d’enregistrements frauduleux et 80% des cas que nous avions cochés étaient corrects. ” Lors de ce test d’un an, APEWS a indiqué des prévisions, mais les noms ont quand même été enregistrés, ce qui a permis un contrôle ultérieur.

Entre-temps, le système est en production et le feedback a été supprimé, mais le nombre d’abus a fortement diminué, souligne Van Wesemael. ” On constate que les enregistrements de noms de domaine abusifs diminuent au fil des ans. Dès juillet 2018, avant même qu’APEWS soit lancé, nous avons enregistré nettement moins de noms abusifs. Ceux-ci ont baissé parce que les faussaires ont constaté que nous les traquions. En un sens, cela nous conforte dans notre travail. ” Reste à voir évidemment si les criminels ont réellement arrêté leurs activités frauduleuses. ” Ils se sont probablement tournés vers d’autres extensions “, conclut Van Wesemael.

Noms de domaine : qui est qui ?

Titulaire de nom de domaine : celui qui demande un nom de domaine. Ainsi Data News est titulaire du nom de domaine datanews.be.

Bureau d’enregistrement : celui qui traite la demande, souvent également l’hôte ou le développeur Web. Songez à des sociétés comme Combell, Telenet ou Proximus à qui vous demandez un nom de domaine. Elles concluent un contrat avec les différents registres pour proposer des noms de domaine.

Registraire : le gestionnaire d’un nom de domaine spécifique. Pour.eu, il s’agit d’EURid, pour.be de DNS Belgium par exemple. Ces organisations travaillent avec plusieurs acteurs pour distribuer les noms de domaine, mais en tant que propriétaire d’un site Web, nous ne pouvez en général pas vous adresser directement à eux.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici