发现令人不安的非法材料后，最大的人工智能训练图像数据集下线

LAION-5B 数据集包含超过 58 亿个图像-文本对（图片来源：LAION - 已编辑）

斯坦福大学的一项研究在用于训练人工智能模型（包括稳定扩散）的最大图像数据集 LAION-5B 中发现了数千张虐待儿童的露骨图像。事件曝光后，LAION 暂时下线了其数据集，以确保数据集在重新发布之前是安全的。

Vishal Bhardwaj (translated by Ninh Duy), Published 12/23/2023 🇺🇸 🇫🇷 ...

AI Cyberlaw

https://purl.stanford.edu/kh752sm9123斯坦福大学互联网天文台（Stanford Internet Observatory）的一项研究发现了一个令人不安的事实--用于训练人工智能图像生成的最大图像数据集 LAION-5B 人工智能图像生成LAION-5B是用于训练人工智能图像生成模型的最大图像数据集，其中包含3226张疑似儿童性虐待材料（CSAM）的图像。LAION 已将其数据集从公共访问中撤出，直到它能确保这些数据集没有任何不安全的内容。

LAION-5B 是一个开源数据集，由超过 58 亿对在线图片 URL 和相应的标题组成，用于训练人工智能模型，包括非常流行的稳定扩散.该数据集是通过使用 Common Crawl 在互联网上搜索各种图片而创建的。

大卫-蒂尔（David Thiel）和斯坦福大学的研究团队撰写了这份研究报告，他们首先使用 LAION 的 NSFW 分类器对数据集进行过滤，然后依靠PhotoDNA 对数据集进行分析。，这是一种常用的内容审核工具。由于观看 CSAM 是非法的，即使出于研究目的也是如此，因此研究小组使用了感知哈希算法，即为每张图片创建一个唯一的数字签名，并使用该签名将其与测试图片进行匹配，以检查图片是否相同或相似。此外，研究小组还将 "确定匹配 "的图像送往加拿大儿童保护中心进行验证。

研究报告发表后，Stable Diffusion 公司的一位发言人告诉 404 Media，该公司在内部设置了许多过滤器，不仅可以从实际用于训练的数据中剔除 CSAM 及其他非法和攻击性材料，还可以确保人工智能模型生成的输入提示和图像是干净的。

根据美国联邦法律，不仅持有和传播 CSAM，而且持有和传播其中的 "未冲洗的胶片、未冲洗的录像带和可转换为视觉图像的电子存储数据 "都是非法的。然而，由于 LAION-5B 等数据集仅包含 URL 而非图像本身，其确切的合法性尚不明确。人工智能生成的 CSAM 很难与实际的 CSAM 区分开来，而且还在不断增加，这进一步加剧了更广泛的问题。尽管 50 亿张图片中的 3200 张看起来微不足道，但这种 "受污染 "的训练数据对人工智能生成模型输出的潜在影响不容忽视。

戴维-蒂尔和他的团队发表的研究强调了其中一个更令人不安的后果后果之一人工智能的突然扩散所带来的更令人不安的后果之一。在未来几年里，寻找解决这些问题的方法将是一项缓慢而艰巨的任务，立法机构、执法部门、科技行业、学术界和普通公众都将参与其中。