拯救互联网免受人工智能机器人抓取工具侵害的开源软件

开源_64.png

一位匿名读者引用了 404 Media 的一篇报道：对于一个声称自己只是在空闲时间与人工智能机器人抓取工具作斗争的人来说，Xe Iaso 似乎正在进行一场令人印象深刻的斗争。自她于一月份推出 Anubis 以来，这款“旨在保护小型互联网免受来自人工智能公司无休止的请求风暴侵扰”的程序已被下载近 20 万次，并被包括 GNOME（流行的 Linux 开源桌面环境）、FFmpeg（用于处理视频和其他媒体的开源软件项目）以及联合国教科文组织（UNESCO）等知名组织所采用。[…] “Anubis 是一款非验证码程序，”Iaso 在她的网站上解释道。“它利用浏览器的功能自动执行验证码的大量工作，目前的主要实现方式是使用 JavaScript 运行一系列加密数学运算，以证明你可以以一种可在服务器上验证的方式运行 JavaScript。”本质上，Anubis 会验证任何访问网站的访客是使用浏览器的人类，而不是机器人。它实现这一点的方法之一是让浏览器使用 JavaScript 进行某种加密数学运算或其他微妙的检查，这些检查浏览器默认会执行，但机器人必须明确编程才能执行。这种检查对用户不可见，并且自 2022 年以来，大多数浏览器都能够完成此测试。理论上，机器人爬虫也可以伪装成使用浏览器的用户，但这样做的额外计算成本在爬取整个互联网的规模上将是巨大的。通过这种方式，Anubis 产生的计算成本对于正在爬取数百万个网站的 AI 爬虫来说过于昂贵，但对于像人类一样使用互联网的个人用户来说却微不足道。Anubis 是免费的、开源的、轻量级的、可以自托管的，并且几乎可以在任何地方实施。对于我们反复报道的互联网上普遍存在的问题，它似乎也是一个很好的解决方案，这有助于解释它的受欢迎程度。但 Iaso 仍在投入大量精力改进它并添加功能。她告诉我，她正在开发一个非加密挑战，以便减少用户 CPU 的负担，同时还在考虑一个不需要 JavaScript 的版本，因为有些注重隐私的浏览器会禁用 JavaScript。Iaso 表示，开发 Anubis 的最大挑战在于找到平衡点。“如何在不屏蔽用户的情况下屏蔽攻击，又不让太多人受到误报的影响，”她说，“同时还要确保运行机器人的人无法发现他们遇到的攻击模式，同时让被网络攻击的人能够发现他们遇到的攻击模式，以便联系相关组织寻求帮助。所以，这就像，你知道的，一个标准的、不可能实现的场景。”

在 Slashdot 上阅读更多内容。

原文： https://news.slashdot.org/story/25/07/07/2146228/the-open-source-software-saving-the-internet-from-ai-bot-scrapers?utm_source=rss1.0mainlinkanon&utm_medium=feed