自动网络抓取机器人为人工智能模型寻找训练数据,导致科学数据库和学术期刊流量泛滥,导致许多网站无法使用。《自然》杂志周一报道,在线图像库 DiscoverLife 包含近 300 万张物种照片,自今年 2 月起,其每日点击量达数百万次,导致网站加载速度减慢,最终无法加载。自 DeepSeek 发布以来,流量激增的情况愈演愈烈。DeepSeek 是一个中文大型语言模型,它证明了构建有效的人工智能所需的计算资源比之前预想的要少。这一发现引发了行业观察人士所说的“机器人数量激增,它们试图抓取训练此类模型所需的数据”。开放存取库联盟 (OCRE) 报告称,在接受调查的 66 位成员中,超过 90% 的成员经历过人工智能机器人抓取数据,约三分之二的成员遭遇服务中断。医学期刊出版商 BMJ 发现,机器人流量超过了合法用户活动,导致服务器超载,客户服务中断。
在 Slashdot 上阅读更多内容。