Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

160亿密码的故事(又名“数据巨魔”)

Posted on 2025-08-14

160亿密码的故事(又名“数据巨魔”)

剧透:我有一些来自这篇文章标题中故事的数据,基本上和我预期的一样。我刚刚把它添加到了 HIBP,并称之为“数据巨魔”。下面我会给大家提供更多背景信息。内容如下:

近年来,各大新闻标题都在数据泄露事件中泄露的密码数量上互相攀比,这几乎成了一场游戏。每篇新报道都想报道一个比前一篇更夸张的数字,于是这种标题党式的循环就此展开。你早就料到会这样,也知道实际数字肯定比标题少一些,但究竟少多少呢?

于是,今年 6 月,一篇标题为“破纪录的数据泄露,160 亿个密码泄露”的报道登上了头条。我以为这只是一个常见的耸人听闻的标题,只会吸引一些人的眼球几天,然后就被遗忘了。但显然并非如此。它最初是因人们对“我被黑了吗”的大量关注而起:

160亿密码的故事(又名“数据巨魔”)

以上是谷歌搜索我的“小”项目的结果,我觉得这很奇怪,因为我们之前没有在 HIBP 中放入任何数据!但最初的报道引起了广泛关注,并进入了主流媒体,以至于许多出版物都把人们引向了 HIBP,于是人们不可避免地进行了大量搜索,试图弄清楚这项服务到底是什么。而且新闻仍在不断涌现——上周,AOL 刚刚发布了这篇报道:

160亿密码的故事(又名“数据巨魔”)

你知道这很严重,因为所有的红色和感叹号……但根据文章,“你不需要惊慌”🤷‍♂️

猜测够多了,让我们来看看这里到底有什么,为此,我直接去了源头:

Bob 是一位质量研究员,多年来在嗅探泄露数据方面非常成功,其中一些数据此前由于他的出色工作而被纳入 HIBP。因此,我们就这批数据进行了交谈,他首先澄清的是,这并非单一的泄露源,而是今年已公开曝光的不同信息窃取者数据集。那些暗示这是一次大规模泄露的新闻标题具有误导性;窃取者日志是由单独受感染的机器生成的,有时会被打包并重新分发。Bob 还指出,许多数据集已不再公开,他也没有所有数据集的副本。但他确实有一部分数据,很乐意将其发送给 HIBP,让我们来分析一下。

总而言之,Bob 发送的数据包含 10 个 JSON 文件,总计 775GB,涵盖 27 亿行数据。初步粗略地对照 HIBP 进行检查后发现,超过 90% 的电子邮件地址已经存在于其中,而那些之前已存在于数据窃取日志中的电子邮件地址,其网站域名高度相关。我的意思是,如果 Bob 发送的数据中记录了某人登录 Netflix 和 Spotify 时的电子邮件地址和密码,那么该人很可能已经出现在 HIBP 针对 Netflix 和 Spotify 的窃取日志中。换句话说,这些数据中有很多我们之前见过的数据。

那么,我们该如何理解这一切呢?尤其是考虑到Bob发送的语料库只占了报道的160亿条标题的17%?我先概括地讲一下,这些数据集的标题往往夸张,而实际影响的数字却要小得多:

  1. 文件之间通常存在重复,因为相同的数据出现多次
  2. 同一个文件中也经常出现重复,因为相同的数据再次出现
  3. “行”是指某人的电子邮件地址和密码列在其登录网站旁边的实例,因此 100 个不同的行可能都属于一个人

我收到的数据语料库包含 27 亿行,从中提取了 3.25 亿个唯一的信息窃取日志条目。这就是我能成功解析出网站、电子邮件地址和密码值的行数。在我之前的例子中,捕获了同一个人同时在 Netflix 和 Spotify 上的凭证,这意味着两个唯一的信息窃取日志记录。所有这些信息最终提炼出所有文件中 1.09 亿个唯一的电子邮件地址,这就是您现在在 HIBP 中看到的数字。换句话说,27 亿 -> 1.09 亿意味着从标题到人物的数据减少了 96%。我们能将同样的数学运算应用于 160 亿的标题吗?我们永远无法确定,但我敢打赌,减少的幅度会更大;我怀疑即使再增加数十亿个语料库,是否还会继续添加新的电子邮件地址,重复率也会上升。

因为它总是在加载窃取日志后出现,所以需要注意的是:

并非所有加载到此次入侵事件中的电子邮件地址都会包含相应的窃取程序日志条目。这是因为我们有一个进程用正则表达式提取所有地址(代码已开源),另一个进程则根据有效的网站和密码提取包含电子邮件地址的行。

因为我最终会在回答问题时一遍又一遍地复制和粘贴这一点,所以还有另一个警告:

窃取程序日志中的记录通常表明设备已被感染,但我们没有数据表明设备何时被感染。这里面会有很多旧数据,就像有很多重新打包的数据一样。

在有效的密码窃取日志条目中,有 2.31 亿个唯一密码,其中 96% 我们之前都见过。这些密码现在都收录在 Pwned 密码中,并更新了流行度计数,可以通过网站(当然也可以通过 API)进行搜索。说到这,这些密码目前被搜索得非常频繁:

每次我看,都会有另外十亿(或二十亿) pic.twitter.com/X7gflzWdCH

— Troy Hunt (@troyhunt) 2025年7月30日

我们从语料库中解析出的1.09亿个电子邮件地址中,96%已经存在于HIBP中(这个数字恰好与我们追踪的现有密码的百分比相匹配)。当然,它们并非全部来自之前的窃取者日志,但有趣的是,在我的测试过程中,我发现这个日志与今年早些时候的ALIEN TXTBASE日志有很多交叉。无论如何,我们从Data Troll那里添加了440万个从未见过的新地址,仅凭这一点就意义重大。虽然数量不足以支撑“史上最大”的夸张标题,但仍然相当可观。

总结一下:

  1. 16B 标题提炼出的实际影响的独特价值数量要少得多
  2. 这些数据主要来自已经流传了一段时间的窃取者日志
  3. 它肯定不是新鲜的,也不会带来任何之前不存在的新风险

最后,还有“数据巨魔”这个标题。当我第一次看到这个故事引起如此大的关注时,我脑海中浮现的画面是一个巨魔坐在一堆数据上。然后,大众媒体抓住了这一点,把它变成了故意挑衅的标题,操纵叙事以吸引注意力。希望这篇文章能稍微缓和一下这种说法,让讨论恢复一些理智。我们需要认真对待这样的数据泄露事件,但它确实不值得受到如此关注。

原文: https://www.troyhunt.com/that-16-billion-password-story-aka-data-troll/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme