
« Chaque fois que l’un de ces robots tire de ma tarpe, ce sont les ressources qu’ils ont consommées et devront payer durement en espèces », a expliqué Aaron à ARS. « Cela augmente efficacement leurs coûts. Et en voyant comment aucun d’entre eux n’a encore réalisé un profit, c’est un gros problème pour eux. »
Vendredi, Cloudflare a annoncé « AI Labyrinth », une approche similaire mais plus polie commercialement. Contrairement à Nepenthes, qui est conçu comme une arme offensive contre les sociétés de l’IA, CloudFlare positionne son outil en tant que fonctionnalité de sécurité légitime pour protéger les propriétaires de sites Web contre le grattage non autorisé, comme nous l’avons signalé à l’époque.
« Lorsque nous détectons la rampe non autorisée, plutôt que de bloquer la demande, nous lierons à une série de pages générées par l’AI qui sont suffisamment convaincantes pour inciter un robot à les traverser », a expliqué Cloudflare dans son annonce. L’entreprise a indiqué que les Crawlers de l’IA génèrent plus de 50 milliards de demandes de leur réseau, ce qui représente près de 1% de tous les trafics Web qu’ils traitent.
La communauté développe également des outils collaboratifs pour aider à protéger contre ces robots. Le projet « AI.Robots.txt » propose une liste ouverte de robots Web associés aux sociétés AI et fournit des fichiers Robots.txt Prebade qui implémentent le protocole d’exclusion des robots, ainsi que des fichiers .htaccess qui renvoient les pages d’erreur lors de la détection des demandes de Crawler AI.
Dans l’état actuel des choses, la croissance rapide du contenu généré par l’AI-AI est accablant d’espaces en ligne et de pratiques agressives de rampe Web par les entreprises d’IA menace la durabilité des ressources en ligne essentielles. L’approche actuelle adoptée par certaines grandes sociétés d’IA – extractant de grandes quantités de données de projets open-source sans consentement ni compensation claire – des risques endommageant gravement l’écosystème numérique très numérique sur lequel ces modèles d’IA dépendent.
La collecte des données responsables peut être réalisable si les entreprises d’IA collaborent directement avec les communautés affectées. Cependant, des acteurs de l’industrie éminents ont montré peu d’incitation à adopter plus de pratiques coopératives. Sans une réglementation significative ou une retenue de soi par les entreprises d’IA, la course aux armements entre les robots avides de données et ceux qui tentent de défendre les infrastructures open source semblent plus davantage, approfondissant potentiellement la crise de l’écosystème numérique qui sous-tend l’Internet moderne.