艺术家在流行的 AI 训练数据集中找到私人病历照片

在用于训练 AI 的 LAION-5B 数据集中发现的经过审查的医学图像。添加了黑条和失真。

在用于训练 AI 的 LAION-5B 数据集中发现的放大/审查医学图像。添加了黑条和失真。（信用：Ars Technica）

上周晚些时候，一位名叫 Lapine 的加州人工智能艺术家发现了她的医生在 2013 年拍摄的私人医疗记录照片，这些照片在LAION-5B图像集中被引用，该图像集是网络上公开可用的图像的抓取。 AI 研究人员下载该数据的子集来训练 AI 图像合成模型，例如 Stable Diffusion 和Google Imagen 。

Lapine 在一个名为Have I Being Trained的网站上发现了她的医学照片，该网站让艺术家可以查看他们的作品是否在 LAION-5B 数据集中。 Lapine 没有在网站上进行文本搜索，而是使用该网站的反向图像搜索功能上传了她自己的最近照片。她惊讶地发现一组两张她的面部前后医学照片，这些照片仅被她的医生授权私人使用，这反映在 Lapine 在推特上发布并提供给 Ars 的授权表格中。

我的脸在#LAION数据集中。 2013 年，一位医生拍摄了我的脸作为临床文件的一部分。他于 2018 年去世，不知何故，该图像最终出现在网上某个地方，然后最终出现在数据集中——我为我的医生签署了同意书的图像——而不是数据集。 pic.twitter.com/TrvjdZtyjD

– Lapine (@LapineDeLaTerre) 2022 年 9 月 16 日

Lapine 有一种称为先天性角化不良的遗传病。 “它影响到从我的皮肤到骨骼和牙齿的一切，”拉平在接受采访时告诉 Ars Technica。 “2013 年，在经历了多轮口腔和下颌手术后，我接受了一小套手术来恢复面部轮廓。这些照片来自我与这位外科医生的最后一组手术。”

阅读剩余的 14 段|注释

原文： https://arstechnica.com/?p=1882591