Notebookcheck Logo

发现令人不安的非法材料后,最大的人工智能训练图像数据集下线

LAION-5B 数据集包含超过 58 亿个图像-文本对(图片来源:LAION - 已编辑)
LAION-5B 数据集包含超过 58 亿个图像-文本对(图片来源:LAION - 已编辑)
斯坦福大学的一项研究在用于训练人工智能模型(包括稳定扩散)的最大图像数据集 LAION-5B 中发现了数千张虐待儿童的露骨图像。事件曝光后,LAION 暂时下线了其数据集,以确保数据集在重新发布之前是安全的。
AI Cyberlaw

https://purl.stanford.edu/kh752sm9123斯坦福大学互联网天文台(Stanford Internet Observatory)的一项研究发现了一个令人不安的事实--用于训练人工智能图像生成的最大图像数据集 LAION-5B 人工智能图像生成LAION-5B是用于训练人工智能图像生成模型的最大图像数据集,其中包含3226张疑似儿童性虐待材料(CSAM)的图像。LAION 已将其数据集从公共访问中撤出,直到它能确保这些数据集没有任何不安全的内容。

LAION-5B 是一个开源数据集,由超过 58 亿对在线图片 URL 和相应的标题组成,用于训练人工智能模型,包括非常流行的 稳定扩散.该数据集是通过使用 Common Crawl 在互联网上搜索各种图片而创建的。

大卫-蒂尔(David Thiel)和斯坦福大学的研究团队撰写了这份研究报告,他们首先使用 LAION 的 NSFW 分类器对数据集进行过滤,然后依靠PhotoDNA 对数据集进行分析。,这是一种常用的内容审核工具。由于观看 CSAM 是非法的,即使出于研究目的也是如此,因此研究小组使用了感知哈希算法,即为每张图片创建一个唯一的数字签名,并使用该签名将其与测试图片进行匹配,以检查图片是否相同或相似。此外,研究小组还将 "确定匹配 "的图像送往加拿大儿童保护中心进行验证。

研究报告发表后,Stable Diffusion 公司的一位发言人告诉 404 Media,该公司在内部设置了许多过滤器,不仅可以从实际用于训练的数据中剔除 CSAM 及其他非法和攻击性材料,还可以确保人工智能模型生成的输入提示和图像是干净的。

根据美国联邦法律,不仅持有和传播 CSAM,而且持有和传播其中的 "未冲洗的胶片、未冲洗的录像带和可转换为视觉图像的电子存储数据 "都是非法的。然而,由于 LAION-5B 等数据集仅包含 URL 而非图像本身,其确切的合法性尚不明确。人工智能生成的 CSAM 很难与实际的 CSAM 区分开来,而且还在不断增加,这进一步加剧了更广泛的问题。尽管 50 亿张图片中的 3200 张看起来微不足道,但这种 "受污染 "的训练数据对人工智能生成模型输出的潜在影响不容忽视。

戴维-蒂尔和他的团队发表的研究强调了其中一个更令人不安的后果 后果之一人工智能的突然扩散所带来的更令人不安的后果之一。在未来几年里,寻找解决这些问题的方法将是一项缓慢而艰巨的任务,立法机构、执法部门、科技行业、学术界和普通公众都将参与其中。

Please share our article, every link counts!
> Notebookcheck中文版(NBC中国) > 新闻 > 新闻档案 > 新闻档案 2023 12 > 发现令人不安的非法材料后,最大的人工智能训练图像数据集下线
Vishal Bhardwaj, 2023-12-23 (Update: 2023-12-23)