几天前,我写了一篇文章,讲的是如果记忆顺序不对,如何恢复种子短语。我提到,种子短语的单词列表设计得各不相同。出于好奇,我使用Levenshtein 距离(也称为编辑距离)计算了这些单词的相似度,Levenshtein 距离指的是将一个单词变成另一个单词所需的单个字符编辑次数。
BIP39 列表中的许多单词(2048 个单词中的 484 个)与一个或多个其他单词仅相差一个字符,例如angle & ankle或loud & cloud 。
其他类型的相似性
编辑距离可能并非最佳指标,因为它衡量的是文本表示的差异。单词在概念或语音上的区别比拼写上的区别更重要。例如, donkey & monkey这个词组虽然只有一个字母不同,但在语音和概念上却截然不同, live & Olive这个词也是如此。
有些词对在语音上非常相似。比如,我可不想在电话里区分“ cannon”和“canyon” 。这个列表的语音区分能力很差,不像北约字母表那样。
记忆
为了便于记忆,你需要使用生动具体的词语,最好是名词。这样就排除了像either和neither 这样的词对。
BIP39 词汇表是标准配置。但其他方法,例如主系统编码,则更注重易记性。
设计
无论以何种标准来区分,列出一长串单词都很难,而2048个单词也相当多。而且,列表上的单词旨在让每个人都熟悉。添加更生动或更独特的单词可能会包含并非人人都认识的单词。不过,看起来或许可以创建一个更好的单词表。
恢复
之前的文章讨论了如何在假设所有单词都正确但顺序错误的情况下恢复种子短语。假设顺序发生微小变化的可能性大于发生较大变化的可能性,那么按排列距离的顺序探索序列是有意义的。
但如果这些词可能不正确,你可以尝试按编辑距离顺序查看这些词。例如,“你说其中一个词是race 。那可能是rice吗?”
相关文章
很多种子短语单词很相似一文最先出现在John D. Cook上。
原文: https://www.johndcook.com/blog/2025/08/18/seed-phrase-words/