在我之前的帖子中,我描述了我的社交媒体剪贴簿——一个很小的私人档案库,我在其中保存我关心的对话。
具体实施方案是我提出的,但理念并非如此:文化遗产机构多年来一直在思考如何保存社交媒体资料。数字保存背后有着数十年的理论和实践经验,但社交媒体带来了一些独特的挑战。
机构档案管理与个人收藏有着不同的限制——机构服务于更广泛的受众,因此其决策需要保持一致性和界限。我的个人剪贴簿很小巧,也十分私密,将其与机构的档案管理工作进行比较,更能凸显其中的差异和困难。这就是为什么我通常称它为“剪贴簿”而非“档案”:它比较随意,也略显杂乱,但这没关系,因为它只供我个人使用。
在这篇文章中,我将解释我认为机构社交媒体存档面临的关键问题:哪些内容可以保存,哪些内容难以保存,以及为什么背景信息如此难以保留。
目录
现存之物以及可保存之物
社交媒体的规模令人震惊。
社交媒体的规模之大令人难以置信:数十亿条帖子,而且每天还在不断增加数百万条。
这使得人们很难选择保存哪些资料,因为任何一个人都只能了解整体的一小部分。做出选择必然会引入选择性偏差,我曾与许多人交谈过,他们希望通过“收集一切”来避免这种偏差——但这远远超出了任何机构的能力范围。
由于不可能收集所有资料,机构会制定规则——即馆藏政策,来界定哪些内容属于馆藏范围。这些规则旨在确保一致性、公平性并减少个人偏见,但它们也迫使档案工作者在一个本质上难以划定界限的媒介中划定界限。
社交媒体并非一系列孤立的帖子,而是一个密集且相互关联的网络图谱。单个帖子只有在特定的语境下才有意义——包括回复、参与者以及当日热点话题。你会收集多少这样的语境信息?你会追踪多少条后续信息?你会保存整个讨论串、每一条回复以及所有关联的账号吗?你如何防止信息范围不断扩大,最终吞噬一切?
我的个人剪贴簿很主观,也不太统一,因为只有我自己看。我的“收藏原则”完全凭感觉——我会保存我觉得有趣的帖子;我会保留那些让我感动的回复;我会删除那些尴尬或无用的回复。如果我的收藏标准不一致,或者删错了东西,也不会影响到其他人。
机构不能如此随意。它们需要制定持久且站得住脚的规则,明确其馆藏的起始和结束范围。在社交媒体上,每条帖子都与更大的对话网络息息相关,因此划定这条界限是一项巨大的挑战。
私密和阅后即焚内容
社交媒体存档工作通常侧重于公开且长期保存的内容,这排除了其他类型的材料——尽管它们在社交媒体中所占的比例越来越大。其中两大类尤为突出:
- 私密社交媒体——私信、私人账号、封闭群组、付费论坛。
- 阅后即焚功能——指那些会故意消失或过期的内容。例如 Snapchat、Instagram Stories 或一次性消息。
收集这类资料并非易事。从技术层面来说,它们被置于身份验证机制或大多数网络存档工具无法访问的界面之后。即便成功保存,又该如何分享呢?从伦理层面来说,档案管理员必须谨慎行事,避免违反社会规范或用户预期。
这并非不可能,我也见过一些项目捕捉私密且短暂的媒体内容——例如,研究人员分析Instagram Stories及其在政治竞选中的运用。这些研究依赖于多种方法:通过用户登录、浏览器插件甚至屏幕截图来获取内容。它们往往规模较小、目标明确且持续时间较短。
我的剪贴簿里有一些私人内容,主要是我和推特上一些私密账号的对话记录。我觉得这样挺好,因为我参与了这些对话,而且这只是个私人存档。我没有跟任何人分享,所以我觉得我的朋友们不会介意我保留一份。我没有保存任何阅后即焚的内容。
私密且阅后即焚的帖子与公开的时间线有着截然不同的动态。当人们知道自己的帖子不会被任何人永久看到时,他们会更加坦诚、脆弱和真挚。或许这些时刻不会出现在社交媒体的存档中——但如果真是如此,我们应该正视这种局限性,以及它所遗漏的故事。
社交媒体体验
社交媒体不仅仅是帖子、文字和图片——它更是一种体验。界面、交互设计以及塑造我们信息流的算法,很少会被存档。
例如,以TikTok及其垂直滑动视频的兴起为例。由于只需滑动即可观看下一个视频,创作者会精心设计内容,力求立即吸引你的注意力,并让你全程保持专注——这与以往节奏较慢的视频截然不同。如果你只保存视频文件,而忽略了滑动观看的体验,就很难理解创作者做出这些选择的用意。
更难以捉摸的是“算法”,这个决定我们时间线上出现哪些帖子的黑匣子。这些算法塑造着文化本身——放大某些声音,压制另一些声音,决定哪些思想可以传播——但它们的内部运作机制刻意保持不透明,也无法存档。它们的运行机制是严密保守的商业机密。
纯粹依靠技术手段来保存体验注定会失败——但这并不意味着一切都无望了。我们可以记录这些体验如何塑造了内容的流转:截图、屏幕录像、详细描述。口述历史可以让未来的受众感受到身处这些数字生态系统中的体验。
在任何档案馆里,我最喜欢的部分之一就是日常记录。很多时候,有些事情因为当时觉得“显而易见”而没有被记录下来——但几十年后,这些知识却早已消失殆尽。社交媒体发展日新月异,现在正是记录这些经历的好时机。未来的人们,在一切尘埃落定之后,回望过去,会想要了解这段历史的来龙去脉。
规则、反抗与责任
如果平台难以保存怎么办?
21世纪初,许多平台对数字保存的支持力度要大得多。公共API很普遍,网络爬虫行为也基本被容忍,一些公司甚至与文化遗产机构开展合作。
Twitter 是此类企业代言的典型案例。其公共 API 催生了一个蓬勃发展的第三方客户端和研究项目生态系统;研究人员可以轻松构建数据集;美国国会图书馆甚至尝试保存 2006 年至 2017 年间的所有公开推文。该项目最终停滞不前,至今仍基本无法访问——但到了 2025 年,它恐怕连启动都做不到了。
如今,大多数平台都抵制数据被保存、存档或大规模下载。API 受到限制或需要付费才能使用,速率限制严格,网络爬虫也遭到严厉打击。生成式人工智能的兴起加速了这一趋势,因为企业意识到他们的数据对模型训练具有价值。既然可以收费,为什么还要免费提供呢?
Reddit 就是最新的例子。一些人工智能公司利用 互联网档案馆免费访问帖子后,Reddit 封锁了该数据库——而谷歌为了获得这些帖子的访问权限,每年要向 Reddit 支付数百万美元。
通过程序自动保存内容的尝试越来越少,这使得大规模归档变得困难。在我的剪贴簿中,我用手动输入数据代替了 API,但这只适用于保存少量数据的情况。
人们想要被保存下来吗?
历史上,许多网络存档都忽略了用户同意。只要内容出现在公共网络上,许多存档机构就认为可以将其收录——但一旦保存,就意味着永久保存。尴尬的想法或私人照片一旦被存档,就无法删除。
并非所有人都同意永久保存自己的帖子,即便他们使用 Wayback Machine 之类的服务。私人账户、封闭论坛和阅后即焚帖子的流行就体现了这一点——人们希望掌控帖子的可见方式和时间。生成式人工智能以及利用社交媒体进行模型训练,更让人们对自己的数据变得格外敏感。
普通民众往往忽视版权和隐私——有多少人使用从网上找到的图片而不顾创作者的感受?——但机构对自己的要求更高。
严格的伦理立场要求获得每位创作者的明确同意。机构通常会使用捐赠协议,允许他们保留您的作品,但您也放弃事后删除的权利——但这种解决方案很难扩展到社交媒体,因为在社交媒体上,一次对话可能涉及数十人。
这也意味着大量具有历史价值的资料将丢失。它会将孤立账户、废弃平台以及已故或丢失密码的用户排除在外。网络档案库保存着公司、政治人物和公众人物的内容,有助于监督他们的言行——但这些人很少会同意存档他们无法控制的内容。
Bluesky提出的“用户数据重用意图”方案是一个有趣的思路,它允许用户声明他们希望如何重用自己的帖子,例如用于人工智能训练或存档。单靠技术并不能解决问题——还需要强制执行——但这感觉像是朝着正确方向迈出的一步。
我喜欢这种平衡的做法——收集公众人物的资料是合理的;但收集普通公民的资料则需要获得他们的明确同意。当然,说起来容易做起来难,要将其明确规定为一条规则也并非易事——但对我而言,“任何公开可获取的信息”作为道德准则已显得越来越不够充分。
在我的个人剪贴簿里,我没有正式的征得同意流程——我觉得这样挺好,因为我的收藏规模小,内容私密,而且只供我自己参考。我的原则是“别做个怪人”。我不会保存任何我认为原作者知道后会感到不舒服的东西。
法律法规
同意是一种选择,但法律是不可逾越的界限。数字馆藏受到诸多法律法规的制约——版权法、隐私法、数据保护规则(例如删除权)以及内容相关的限制。机构必须确保其馆藏符合所有相关法律,即使这些义务与长期保存的目标相冲突。
社交媒体存档尤其棘手。自动化批量收集很容易包含非法或敏感内容,而且错误可能难以察觉。
这就是为什么我更倾向于有针对性、人工审核的方式。虽然这种方式会减慢速度,但阅读所有资料可以让档案管理员在内容造成隐患之前发现潜在问题。
了解你节省了多少
您如何搜索您的收藏?
如果无法查看已保存的内容,存档就毫无用处。这在社交媒体存档中经常是一个问题:我们可以以惊人的速度保存帖子,但却无法以任何有意义的方式搜索它们。
网络存档通常逐页保存,每篇文章保存一页,就像互联网档案馆(Wayback Machine)那样。这种方式在内容捕获方面表现出色,但在检索方面却非常糟糕。如果你知道文章的URL,就可以找到它,但你无法找到关于某个主题或特定作者撰写的所有文章。
传统档案馆通过编目来解决这个问题:人工撰写描述,研究人员根据这些描述查找所需内容。但如果要大规模保存社交媒体内容,这种模式就难以奏效了:机器保存成千上万条帖子所需的时间,可能比人工描述一条帖子的时间还要长。
在我的个人剪贴簿里,我会给每段对话添加关键词标签。它们快速、非正式且有效。如果我想查找特定内容,可以按标签筛选,立即找到。由于只有我一个人使用这些标签,我可以按照自己的喜好定义它们,并随时更改。如果我在机构环境中,我会使用像LCSH或MeSH这样的受控词表。
这些轻触式关键词感觉像是一个现实的中间立场:既有易于应用的人类尺度数据,又足够丰富,可以拨开迷雾。
这个账号背后的人是谁?
社交媒体上的身份识别是一个棘手的问题。许多账户都是匿名或使用化名,而且大多数人在多个平台上都拥有账户。这使得追踪某人在社交媒体上的活动变得十分困难,因为一个人的真实身份与其在线账户之间很少存在对应关系。通常,这种匿名是用户有意为之。
这种模糊性给社交媒体公司的客服团队带来了很大的麻烦。当有人因为忘记密码或账号被盗而寻求帮助时,平台如何才能确定他们是真正的账号所有者?如果你身处公司之外,这个问题就更难回答了。
机构和研究人员重视身份信息,因为它提供了背景和权威性:是谁写的?我们对他们的言论有多信任?社交媒体让这一切变得困难,因为许多用户名并不能提供任何关于其背后人物的信息。尽管机构拥有将不同记录中的人员联系起来的工具,但首先你需要知道这个人是谁!
我的个人剪贴簿避免了这种复杂性。里面几乎所有的对话都是和我非常熟悉的朋友进行的,所以我可以轻松地将他们在不同平台上的身份关联起来。
隐性知识、文化背景和模因
社交媒体依赖于共享知识:时事、内部笑话和网络迷因。如果没有这些背景信息,帖子的意义可能会消逝,或者被全新的含义所取代。
这并非什么新问题——所有人类交流都需要语境——但社交媒体将这个问题推向了极致。快节奏和简洁性为表情包的滋生提供了沃土,而这些表情包的起源几乎瞬间就会消失。如果你一天不登录,回来后看到的那些帖子可能完全不知所云。你错过了引发表情包传播的瞬间。想象一下,如果你几年甚至几十年后才看到这些帖子,理解起来该有多么困难。
你可以尝试用目录描述来填补空白,但这只有在有人对相关典故足够了解并能进行描述的情况下才有可能。鉴于社交媒体的规模和传播速度,任何人都不可能了解所有可能影响帖子内容的笑话、梗和想法。
在我的个人剪贴簿里,我依靠记忆来提供背景信息。我不写长篇描述,也不知道自己能记住多少。有些在2020年看起来很有意义的帖子,到了2030年可能就让人摸不着头脑了,而另一些则依然清晰明了。只有试过才知道!
我们不可能拯救一切,但我们可以拯救一部分。
或许我们无法完美地保存社交媒体,但这并不意味着我们不应该尝试。所有已建立的档案库都存在不完整之处,但它们仍然具有巨大的价值。记录公开的帖子、话题或对话——即使我们会丢失一些上下文或转瞬即逝的内容——也有助于保存一段可能就此湮没的文化历史记录。
社交媒体存档对大型机构来说或许是一项新尝试,但它并非一个新概念。小型、临时性的项目层出不穷,而且我们有很多先例可以借鉴。就在今天,我偶然发现了Posty ,它是一款可以将 Mastodon 账户存档为静态网站的工具。
每当我看到有人开发工具来保存网络上那些细小的角落——比如单个账号发布的帖子、紧密社群创作的同人作品,或是社群维基上分享的建议——我都会感到兴奋。每当一个平台消失或出现问题时,人们就会重新燃起兴趣,努力将损失降到最低。
社交媒体存档永远不会完美,但它是可能的,我很期待看到各个机构如何应对这一挑战。
[如果您的RSS阅读器中此文章的格式显示异常,请访问原文]
原文: https://alexwlchan.net/2025/hard-problems-in-social-media-archiving/?ref=rss