为了内容而内容 – 搞英语 → 看世界

语言在不断演变，尤其是在某些群体中。并非每个人都能随时适应这种变化。例如，我无法忍受我的社区现在总是用“cooking”或“cooked”来形容人，也无法忍受社区里的人总是“locked in”或“cracked”。我不喜欢这样，因为这些词语的使用主要表明的是群体成员身份，而不是个人身份。

但现在语言中的一些变化可能来自……机器？也可能不是。我不知道。我和许多人一样注意到，某些词的出现频率比以前高了很多，人们自然而然地会认为这是语言学习管理系统（LLM）的错。我的做法是，收集了90天的本地编程会话数据，找出那些使用频率高于词频预测值的中频词。然后，我又找到了这些词中更常见的词，并进行了谷歌趋势搜索（筛选范围限定为美国）。需要注意的是，像“能力”（capability）这样的词，由于问题本身的性质，在编程会话中出现的频率更高，因此实际的增长幅度比预期的要大得多。

您可以点击查看；这就是随时间推移的变化情况。请注意，这些都是我编码过程中代理输出的词语，与历史平均水平相比，这些词语的使用频率有所增加：

正在加载词语趋势图……

交互式词频趋势图表需要 JavaScript。

肯定有什么事情正在发生。理论上，谷歌趋势反映的是人们搜索的关键词。理论上，或许是代理在进行一些谷歌搜索，但也可能是人类用户搜索LLM生成的内容；我并不确定。这个数据集可能完全是捏造的，但我检查和选择的所有关键词在谷歌趋势上的搜索量都出现了增长。

那么，我最初是如何选择要检查的词语的呢？首先，我查找了词频最高的词语。不出所料，它们包括“add”、“commit”、“patch”等等。然后，我让语言学习模型（LLM）生成一个它认为与工程相关的词语列表，我将它们全部排除在外。之后，我又删除了最常用的词语。最终，我得到了上面的列表，以及一些内部项目名称。例如， “habitat”和“absurd”以及其他一些内部代码名称出现频率过高，我不得不将它们删除。正如你所看到的，这并非完全科学的方法。但是，与词频相比差异较大的词语列表中，所有词语在谷歌趋势上也都出现了峰值。

除了 LLM 生成之外，可能还有其他解释，但至少我发现有趣的是，我的编码会话高峰也出现在 Google Trends 上。

法学硕士（LLM）的兴起

用词是一回事，LLM（语言生成机器）的造句方式又是另一回事。识别LLM生成的文本并不难，但我越来越担心自己也开始像LLM那样写作，因为我最近读了太多LLM的文本。我第一次意识到这一点是在今年早些时候的一次演讲中使用了“substrate”（底层）这个词。我不确定是从哪里学来的，但我很喜欢它，因为它很符合我想要表达的意思，而且我不想用“foundation”（基础）这个词。然而，从那以后，我到处都能看到这个词。这本身可能就是巴德尔-迈因霍夫现象的一个例子，但你也可以从上面的例子中看出，我的编码代理对“substrate”这个词的喜爱程度远超预期，而且谷歌趋势也显示它的使用频率正在上升。

我们现在都接触过很多“语言大师”（LLM）生成的文本，但我觉得最近这种情况越来越严重了。我收到的很多推特回复和我在 Hacker News 上看到的一些评论读起来都像是“语言大师”生成的，其中也包括一些我知道是真人写的。这真的让我很困惑，一方面，我真的很想批评那些说话和写作像“语言大师”的人；另一方面，也许我们所有人实际上都在越来越像“语言大师”那样说话和写作？

我最近听了一段演讲录音（我故意不提供链接），演讲者使用的句式结构与 LLM 生成的文本中过度使用的句式结构相同。没错，演讲者可能使用了 LLM 来辅助生成演讲稿，但同时，演讲听起来也很自然。所以，要么是经过精心排练，要么就是很自然。

参与和耕作

至少在推特、领英和其他平台上，人们渴望创作内容并被阅读。保持沉默已不再是一种选择，因此，人们试图通过参与任何热门或流行话题来扩大影响力并提升个人形象。就像突然之间每个人都拥有了数不胜数的开源项目一样，每个人对所有事情都有自己的看法。

我的收件箱简直一团糟，里面全是公司发来的AI生成的无稽之谈。现在，我经常在Hacker News和其他地方看到有人认真讨论AI生成的博客文章（或者至少是看起来像AI生成的博客文章）。

社交媒体算法早已对真实的人际交流造成了影响，而如今更是变本加厉。越来越多的人发现可以利用流量营销工具（LLM）来优化粉丝数量，他们与算法之间展开了一场军备竞赛，而真正真诚的人际互动正在迅速消亡。现在甚至出现了专门自动发送流量营销工具生成的垃圾内容的公司，而且人们还为此付费。

速度应该致命

如果我们考虑到高质量内容应该胜出，那么速度因素就无关紧要了。如果一条人工撰写的评论比一条垃圾自动生成的评论晚了15分钟出现，但因为质量更好而胜出，那么所有这些所谓的“低质量内容营销”（LLM）的胡言乱语就会减少。但我认为，LLM生成的噪音实际上表现得非常好。我们现在在开源领域经常看到这种情况。有人开发了一个有趣的项目，把它上传到GitHub，几个小时之内，就会出现很多基于该代码库的“混音版”和“重新实现版”。不仅如此，很多分支还附带了粗制滥造的营销网站、付费域名，以及在社交媒体上大肆宣传为什么这是正确的方向。

我之前就抱怨过开源正在迅速衰落，因为人们现在看到了在有用的开源项目上开发产品的机会，但其根本机制与我们看到大量低质量开源软件（LLM）的原因相同。有人（但愿如此）在午餐时间形成了一个观点，然后三分钟后就发布了一篇粗制滥造的文章。写这篇文章根本不需要那么多时间。至于推文，我认为情况更糟，因为我怀疑有些人运行脚本来自动执行互动。

我们当然应该憎恶这一切。这些敷衍了事的帖子、推文和开源项目根本不应该出现。但它们偏偏就出现了！无论它们在算法层面还是在用户互动层面发挥了什么作用，它们所受到的惩罚都远远不够，因为它们投入的精力实在太少了。

摩擦和速率限制

速度和便利性的提升可能会带来问题，这早已不是什么秘密。在英国，身份证制度非常不受欢迎，因为英国民众对中央数据库被滥用心存疑虑，毕竟纳粹德国的暴行令人震惊。同样，美国1986年颁布的《枪支拥有者保护法》也禁止美国建立枪支拥有者的中央数据库。由于缺乏此类数据库，枪支追踪方法看起来就像韦斯·安德森电影里的情节。我们早就知道，有些事情不应该那么容易，因为很容易被滥用。

我们在工程领域深有体会；在政府权力过度扩张方面，我们也深有体会。如今，我们很可能在更多领域都会面临同样的问题，因为人工智能让几乎所有涉及人类文本的工作都变得更加轻松。这正迅速冲击着现有的基于文本的系统。例如，欧盟的投诉系统如今已不堪重负，难以应对人工智能的挑战。再比如任何与人工智能相关的项目的问题跟踪系统。Pi 经常收到人工智能生成的问题请求，有时甚至在作者不知情的情况下。

信任侵蚀和煤气灯效应

我知道抱怨“我收到太多邮件、垃圾推特提及和GitHub issue”听起来有点夸张。但我真的觉得，既然我们已经意识到这一点，就必须改变与那些日益自动化的人互动的方式。他们不仅制造出大量令人厌烦的垃圾信息让我们不得不忍受，而且还在以更隐蔽的方式影响着世界，那就是影响着我们彼此之间的互动。一旦我开始不信任那些我原本信任的人，仅仅因为他们开始使用LLM（可能是指某种软件或工具）的措辞，这种不信任就会侵蚀整个社会的信任。

你也不能因为不良行为就完全封禁用户，因为很多不良行为都是无意的。你给我发Polsia垃圾邮件？你对我来说就是个死人。你给我发了AI生成的投诉请求，五分钟后又来道歉？好吧，我猜谁都会犯错。然而，在很多方面，正在发生并将继续发生的事情都令人不安。

我最近和朋友本聊过，他说他强迫别人给他打电话继续谈话，因为他不再相信自己是在和真人说话。

并非所有人都经历过这种极端情况，但我确实有过几次因为对方行为而对现实产生怀疑的经历。我一直为此感到困扰，尽管我自认为对新技术，尤其是人工智能，持相当开放的态度。但我的孩子会如何看待这些呢？我的母亲呢？我非常怀疑科技能否真正解决这个问题。

修改建议

我认为科技无法解决这个问题的原因在于，虽然它可以隐藏一些垃圾邮件，给一些自动生成的文本贴上标签，但它无法改变我们人类自身的问题。真正受损的是各种社交互动：人们普遍认为，当有人给你写信时，信的另一端是一个用心对待这次交流的人。我宁愿被人冷落或拒绝，也不愿收到人工智能生成的垃圾信息。

改变必须从意识层面开始，而一个令人遗憾的趋势是，即使我们不使用代理，LLM（语言代理）也会影响我们阅读和撰写的文本。鉴于由此产生的歧义，我们需要更加意识到，当我们在与他人互动时使用代理来支持我们时，我们很容易变成“能量吸血鬼”。试想一下，每次有人阅读你发送的文本时，他们都必须越来越频繁地判断，这段互动究竟是你本人、LLM，还是你和LLM共同完成的。当存在歧义时，无论双向透明，都能起到极大的帮助。

当有人给我们寄送未经申报的劣质物品时，我们需要改变与他们互动的方式。如果我们关心他们，就应该告诉他们。如果我们不在乎他们，就不应该让他们露面，也不应该与他们互动。

在创建用于提交文本的平台和界面时，我们需要设置更多限制。内容创作成本低并不意味着他人接收成本也低，我们需要找到更具创意的方法来增加阻力。GitHub 或任何想要取代它的平台都需要在这方面进行大量改进，其中一些改进可能与其核心 KPI 相悖。如果你想要一个长期健康的平台，仅仅关注用户参与度并不是明智之举。

我们应该尝试采取一切能够限制社交互动频率的措施：增加面对面的会议，增加需要赢得信任的平台，或许还要更多地接受有时正确的回应就是不回应。

至于本博客中使用的AI辅助功能，我事先声明了一段时间，确保其透明度。在这篇博文中，我使用Pi作为智能体来生成动态可视化图表，并使用该智能体编写代码来分析和抓取Google Trends数据。

原文： https://lucumr.pocoo.org/2026/5/4/content-for-contents-sake/