Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

2025 年的访问日志

Posted on 2025-09-17

我写了这篇博客。有人读吗?我怎么知道呢?

在互联网发展的早期,你的网络服务器会在页面请求时记录日志,然后各种工具会分析这些日志来了解你的访客情况。如今,这些日志在查看人工流量时几乎毫无用处,因为大多数流量都来自机器人,尤其是在人工智能公司都运行着自己的网络爬虫的情况下。

有些机器人,比如 Googlebot,会用User-Agent标头或IP 范围来标记自己,但还有很多其他类型的机器人,包括那些将自己标识为浏览器的机器人。(我几十年前的记忆里,谷歌也曾有一种机制,可以以一种看起来不像机器人的方式抓取页面。)

如今,Web 访问日志记录使用的是 JavaScript。页面上的脚本会收集访问者的信息,并将其 POST 到某个日志记录端点。例如,Google Analytics 就是这样工作的。一些网站声称超过一半的网站都在使用它,这意味着使用 Google Analytics 可以让 Google 进一步了解互联网上每个人的浏览情况。


“遥测”脚本太烦人了,除了它还能做什么?这里有一个不需要 JavaScript 的技巧,但它同样不起作用。

在每个页面中嵌入一个不可见的图像:

仅获取 HTML 和遍历链接的机器人不会访问此日志记录端点。 <img src=/log width=1 height=1>

传递到/log路径的Referer标头将告诉您<img>标签所在的页面。

不幸的是,如今的机器人也对图像感兴趣。


如果你真的使用 JavaScript 会怎么样?事实证明,那些花哨的机器人也运行 JS。机器人不会做什么?

我的一个想法是,机器人不太可能在任何特定页面上停留——它们有其他地方可去。我尝试了一个使用setTimeout的脚本,只有当浏览器停留三秒后,才将页面加载记录为一次访问。

它看起来比我试过的其他方法效果更好,但不到一天,我就发现百度机器人抓取了我的主页,三秒钟后又抓取了日志记录端点。他们真的有可能在运行页面脚本并等待吗?也许我需要一个更长的计时器?


本博客也以 feed 的形式发布。Feed 阅读器会获取其内容,并在其自带的 UI 中重新发布。我还没试过,但我怀疑他们是否会运行我的脚本。

有些 Feed 阅读器在抓取 Feed 时,会报告它们代表的订阅者数量。这算不算人工阅读?我不这么认为。我以前用 Feed 阅读器的时候,有些订阅的内容我有时根本没看。

一方面,越来越精明的机器人在日志中的表现会越来越接近人流。另一方面,人类通过 feed 阅读器阅读,甚至不使用 JavaScript,但无论如何都不会被记录下来。但愿不会有人把我的帖子打印出来,然后纸上阅读,那样根本无法追踪!


这个问题体现了你在工程中可能遇到的一个更普遍的模式:有时,当你着手实施一项措施时,你会发现一个由越来越令人困惑的极端情况组成的无尽迷宫。如果有人加载了页面,但只是心不在焉地浏览了一下,该怎么办?这根本算不上真正的读者,对吧?如果有人加载了页面,并在日志信标运行之前立即找到了他们想要的内容,该怎么办?

这些问题表明,你需要退一步思考,重新思考你的真正目标是什么。我的目标是什么?我想我写这篇博客有两个原因。

  1. 花时间连载我的想法,追寻内心批评家发现的所有漏洞,是我巩固和存档知识的一种方式。为此,我不需要任何人阅读,只需要我自己。

  2. 我为想象中的“另一个我”的读者写作,他们与我有着相同的兴趣和技能水平,但还不了解我学到的东西。有时我写的文章正是别人需要的,他们最终会联系我。为此,我需要一个电子邮件地址,而不是访问日志。

原文: https://neugierig.org/software/blog/2025/09/access-log.html

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme