Cloudflare révèle que des robots furtifs de l’entreprise d’IA Perplexity se camouflent de manière spécifique, lorsqu’ils tombent sur un site qui les bloque. Ce n’est pas la première fois que Perplexity est surprise en train de dérober du contenu sans autorisation.
Cloudflare, qui propose une architecture internet permettant entre autres aux sites de choisir eux-mêmes les robots furtifs autorisés, signale dans un rapport que la start-up d’IA Perplexity contourne activement ce type de restrictions. Lorsqu’un tel robot furtif se voit bloquer, il se camoufle pour contourner les règles du site web.
Robots furtifs
La plupart des robots furtifs sur internet respectent les règles définies par les sites web dans un fichier robots.txt. Ce fichier permet à un site web de choisir, par exemple, les pages indexées par Google. Perplexity enfreint donc ces règles, selon Cloudflare, et ce n’est pas la première fois. L’année dernière, l’entreprise avait déjà été prise en flagrant délit d’ignorer des fichiers robots.txt et de dérober de contenu à l’arrière des paywalls. A l’époque, le CEO Aravind Srinivas avait accusé des robots furtifs tiers.
Cloudflare indique avoir reçu des plaintes de clients constatant que les bots de Perplexity fonctionnaient toujours dans des fichiers qu’ils avaient précédemment bloqués. Pour en avoir le cœur net, Cloudflare a créé plusieurs nouveaux domaines avec des restrictions similaires dans le fichier robots.txt et des règles dans le pare-feu du site. L’entreprise a observé que les scrapers d’IA de Perplexity tentaient initialement d’invoquer un site en s’identifiant comme ‘PerplexityBot’, mais que si cela ne fonctionnait pas, l’agent se faisait alors passer pour un utilisateur de Chrome ou de macOS. Ce type de camouflage recourait également à différentes adresses IP, dont aucune n’apparaissait comme celle de PerplexityBots. ‘Nous avons observé cette activité sur des dizaines de milliers de domaines, avec des millions de requêtes par jour’, selon Cloudflare.
Dans un communiqué, Perplexity qualifie ce rapport de ‘coup de pub’. Cloudflare s’est positionnée ces derniers temps comme un défenseur des sites web contre les robots furtifs non autorisés. De nombreuses entreprises d’IA utilisent ces robots pour collecter du texte et des images, afin de former leurs modèles. La firme réseautique tente de développer un système permettant à ces entreprises d’IA de payer le contenu collecté. Dans une nouvelle mise à jour, Cloudflare bloque également par défaut tous les robots furtifs.
Cloudflare veut faire payer les bots