今天,我关于生成式人工智能爬虫的言论发表在了 The Register 上。为了透明起见,以下是我被问到的问题以及我未经编辑的原始回复的副本。请欣赏!
首先,您是否认为爬虫流量的增长很快就会放缓?
我认为只有一件事能阻止这种情况发生:人工智能泡沫破灭。现在的炒作实在太多,人们得到的文档、电子邮件和网站质量反而更差。我不知道这实际上会给人们带来什么,但我们这个行业为此感到非常自豪。
它可能继续增长吗?
我认为它没有理由不会增长。人们正在使用这些工具来取代知识和技能的获取。没有理由认为这种对我们节俭文化观念的攻击不会持续下去。这是对中层管理人员的完美攻击:这些永不睡觉的机器人永远不会生病、不会休假、也不需要医疗保险,它们能够产生与人类员工表面上相似的产出。我认为,除非泡沫破灭,否则这种趋势没有理由持续下去。即便泡沫破灭,很多这样的爬虫程序可能仍会继续存在,直到他们的风险投资耗尽。
如果是这样,那如何才能持续下去?
不是,哈哈。我们正在为了获得假设的收益而破坏公共资源。上一次重大的人工智能突破是2023年的GPT-4。其余的都是渐进式改进。即使爬虫们烧光了所有数据,也没有足够的训练数据来创造另一个指数级的突破。我们现在能做的就是提高在低端硬件上运行GPT-4级别模型的效率。我现在可以在我的MacBook上运行(并且经常这样做)和GPT-4一样好的模型,这真的很酷。
更广泛地部署阿努比斯和其他主动对策会有帮助吗?
这是一个监管问题。政府需要介入,对这些正在破坏数字公共利益的人工智能公司处以威胁其生存的罚款,并要求它们向其所损害的社区支付赔偿金。讽刺的是,大多数人工智能公司都依赖于它们正在摧毁的社区。这呈现出一种悖论,我本以为这种悖论会在尼尔·斯蒂芬森90年代的书中读到,而不是在加拿大广播公司的头版。
Anubis 通过提高攻击的计算成本,帮助减轻了许多恶意行为。即使在省略工作量证明的配置下,Anubis 也迫使攻击者不得不重新调整抓取机制,使用无头浏览器,而不是盲目地抓取 HTML。这增加了传播这种滥用流量的 AI 公司的基础设施成本。我们希望,通过投入更多硬件资源,让 AI 公司在财务上难以进行数据抓取。
本质上:它使得爬虫必须花费更多的钱来完成同样的工作。
是否需要制定法规来防止滥用开放网络?
是的,但这项监管必须是全球性的、同步的、永久性的,才有可能真正产生积极影响。我们的社会目前无法监管气候变化等类似的生存威胁。我对生成性人工智能能出台这样的监管不抱任何希望。
Fastly 声称现在 80% 的机器人流量都是 AI 爬虫
在一些开源项目中,我们发现超过 95% 的流量来自 AI 爬虫。例如,部署 Anubis 几乎立即导致服务器负载大幅下降,以至于他们以为网站意外下线了。我的一位客户在部署 Anubis 后,电费账单大幅下降。这太疯狂了。
就我个人而言,在我的博客上部署 Anubis 后,广告曝光量减少了 50% 以上。我怀疑在线广告中存在大量未举报的点击欺诈行为。
希望这些能帮到你。继续加油!