《Register》杂志的 Steven J. Vaughan-Nichols 认为:“人工智能网络爬虫正在无休止地挖掘网络,不断搜寻更多内容,以填满其大型语言模型工厂。” 而且,“当人工智能搜索机器人,以 Meta(占人工智能搜索机器人流量的 52%)、谷歌(占 23%)和 OpenAI(占 20%)为首,一次性以高达 30 TB 的流量重创网站时,它们甚至会损害大型公司的网站性能……” 它们究竟占了多少流量?据内容分发网络 (CDN) 巨头 Cloudflare 称,目前全球 30% 的网络流量来自机器人。引领潮流并快速增长?人工智能机器人……然而,任何运营网站的人都知道,老式爬虫和如今的人工智能爬虫之间存在着巨大的差异。新型爬虫是网站杀手。Fastly 警告称,它们会导致“性能下降、服务中断和运营成本增加”。这是为什么呢?因为它们会给网站带来流量高峰,几分钟内流量就可能达到正常水平的十倍甚至二十倍。此外,人工智能爬虫比标准爬虫更具攻击性。正如 InMotionhosting 网站托管公司指出的那样,它们往往会无视爬取延迟或带宽节省指南,直接提取整页文本,有时还会尝试跟踪动态链接或脚本。结果呢?如果您像许多小型企业一样,使用共享服务器访问网站,即使您的网站没有被勒索内容,使用相同硬件和相同网络管道的其他网站也可能会受到影响。这意味着即使人工智能爬虫没有攻击您的网站,您的网站性能也会大幅下降……人工智能爬虫不会将用户引导回原始来源。它们会把我们的网站四处乱窜,什么也不返回,我们只能苦苦思索如何在这个人工智能驱动的网络世界中生存下去。当然,我们可以尝试使用登录、付费墙、验证码挑战和复杂的反机器人技术来抵御它们。你知道人工智能最擅长什么吗?它就是绕过这些壁垒。至于robots.txt文件,那种老式的阻止爬虫的方法?很多——或者说大多数?——人工智能爬虫都会直接忽略它们……现在有人正在努力用llms.txt文件来补充robots.txt。这是一项拟议的标准,旨在提供对法学硕士(LLM)友好的内容,让法学硕士(LLM)可以访问这些内容,而不会影响网站的性能。然而,并非所有人都对这种方法感到兴奋,而且它可能最终会付诸东流。与此同时,为了应对过度爬虫,一些基础设施提供商(例如Cloudflare)现在提供默认的机器人拦截服务来阻止人工智能爬虫,并提供机制来阻止人工智能公司访问其数据。
在 Slashdot 上阅读更多内容。