上周我写了一篇文章,探讨了 BIP39 中提出的加密钱包英文种子短语不太容易记忆。这篇文章基于这些词汇,提出了一些简短的思考。
前缀唯一性
BIP39 单词有一个我之前没有提到的特性:这些单词由其前四个字母唯一确定。这意味着,例如,你可以在手机上输入每个单词的前四个字母来生成种子短语,而钱包界面可以自动填充每个单词的其余部分。
顺便说一句,虽然BIP39单词的开头很独特,但它们的结尾却并非如此。例如, cross和across都在列表中。
创建列表
我想知道列出 2048 个前四个字母不同的常用词有多难。所以我从谷歌的10,000 个最常用词列表开始。
我删除了单字母、双字母单词以及 NSFW 单词,尝试创建一个类似于 BIP39 单词的列表。最终得到了一个包含 4228 个单词的列表。你可以删除其中一半以上的单词,最终得到一个包含 2048 个单词的列表,这些单词由单词的前四个字母唯一确定。
比较列表
我很好奇,BIP39 列表中的 2048 个单词有多少个出现在 Google 的 10,000 个最常用单词列表中。答案是 1666 个,约占 81%。(顺便说一下,我用comm来回答这个问题。)
词汇估计和重叠
我还好奇一件事。普通成年人的活跃词汇量在 2 万到 3.5 万之间。因此,一个典型的成年人几乎知道谷歌前 1 万个单词表上的所有单词,这似乎是合理的。(并非全部。例如,我在谷歌的列表中注意到一个我以前没见过的词。)
现在假设你有一个包含 20,000 个最常用单词的列表,而一个人的词汇量是 20,000 个。这个人可能知道列表中的多少个单词?当然不可能全部知道。我们学习词汇的方式并非从列表顶部开始,按频率排序,然后逐步向下。我们学习词汇的方式会根据自身情况有所随机。我们更有可能知道最常用的单词,但这并不确定。那么,该如何建模呢?
想想如何评估某人的词汇量,这挺有意思的。你不可能给一个人一个包含所有英语单词的测验,让他们勾选自己知道的单词,而且词频的差异也让评估变得复杂。或许词汇量评估的文献可以解答上一段的问题。
相关文章
有关种子短语的更多内容一文最初出现在John D. Cook上。
原文: https://www.johndcook.com/blog/2025/08/26/seed-phrase-words-2/