人工智能网络爬虫在搜寻训练数据时是否会“破坏网站”？

《Register》杂志的 Steven J. Vaughan-Nichols 认为：“人工智能网络爬虫正在无休止地挖掘网络，不断搜寻更多内容，以填满其大型语言模型工厂。” 而且，“当人工智能搜索机器人，以 Meta（占人工智能搜索机器人流量的 52%）、谷歌（占 23%）和 OpenAI（占 20%）为首，一次性以高达 30 TB 的流量重创网站时，它们甚至会损害大型公司的网站性能……” 它们究竟占了多少流量？据内容分发网络 (CDN) 巨头 Cloudflare 称，目前全球 30% 的网络流量来自机器人。引领潮流并快速增长？人工智能机器人……然而，任何运营网站的人都知道，老式爬虫和如今的人工智能爬虫之间存在着巨大的差异。新型爬虫是网站杀手。Fastly 警告称，它们会导致“性能下降、服务中断和运营成本增加”。这是为什么呢？因为它们会给网站带来流量高峰，几分钟内流量就可能达到正常水平的十倍甚至二十倍。此外，人工智能爬虫比标准爬虫更具攻击性。正如 InMotionhosting 网站托管公司指出的那样，它们往往会无视爬取延迟或带宽节省指南，直接提取整页文本，有时还会尝试跟踪动态链接或脚本。结果呢？如果您像许多小型企业一样，使用共享服务器访问网站，即使您的网站没有被勒索内容，使用相同硬件和相同网络管道的其他网站也可能会受到影响。这意味着即使人工智能爬虫没有攻击您的网站，您的网站性能也会大幅下降……人工智能爬虫不会将用户引导回原始来源。它们会把我们的网站四处乱窜，什么也不返回，我们只能苦苦思索如何在这个人工智能驱动的网络世界中生存下去。当然，我们可以尝试使用登录、付费墙、验证码挑战和复杂的反机器人技术来抵御它们。你知道人工智能最擅长什么吗？它就是绕过这些壁垒。至于robots.txt文件，那种老式的阻止爬虫的方法？很多——或者说大多数？——人工智能爬虫都会直接忽略它们……现在有人正在努力用llms.txt文件来补充robots.txt。这是一项拟议的标准，旨在提供对法学硕士（LLM）友好的内容，让法学硕士（LLM）可以访问这些内容，而不会影响网站的性能。然而，并非所有人都对这种方法感到兴奋，而且它可能最终会付诸东流。与此同时，为了应对过度爬虫，一些基础设施提供商（例如Cloudflare）现在提供默认的机器人拦截服务来阻止人工智能爬虫，并提供机制来阻止人工智能公司访问其数据。

在 Slashdot 上阅读更多内容。

原文： https://tech.slashdot.org/story/25/08/31/1820249/are-ai-web-crawlers-destroying-websites-in-their-hunt-for-training-data?utm_source=rss1.0mainlinkanon&utm_medium=feed