孩子安全的成本是否太高?Apple 饱受争议的新功能
最近一项有关隐私保护的丑闻引起了大家瞩目。旨在防止虐待儿童的 CSAM 检测的 Apple 新功能把整个世界分为了:忧心忡忡和积极乐观两大阵营(挺巧合的是,大部分苹果公司的工作人员都是乐观主义者)。
我们在 AdGuard 苦心钻研这次的革新。未成年人的安全至关重要,但是新功能侵犯个人隐私的可能性极大,因此必须有特殊保护隐私的方法。而在这上面,我们也许可以提供帮助。
最新消息(2021.9.3):
Apple 在 CSAM 检测项目后退了一步。由于受到最近引起争论的儿童保护项目的公共舆论的压力使苹果公司在正式发布至关重要儿童保护功能前,在近几个月里花更多时间来收集信息并改进新技术。
我们无疑将来再会听到更多关于 CSAM 检测,不过现在能看到公众舆论有很强的能量,感觉确实挺好的。
基本知识
在您提问之前,让我们先来澄清一下。我们并没打错字。诈骗(英文:scam)就是诈骗,不过 CSAM 是指儿童性虐待材料的英文缩写。苹果公司宣布:“我们想要保护儿童免受非法分子通过通信工具非法利用以及传播他们。”
目的确实很好,但结果不一定。谁会反对保护儿童免于遭受残酷行为的技术呢?那么,大家愤怒的原因又是什么?
主要的问题在于苹果公司应用其新技术的方式 —— 苹果公司需要先扫描您的设备上的所有属于苹果生态系统(即 iPhone、iPad、MacBook 等等)的图像,检测是否有虐待儿童的元素。如苹果检测到任何虐待孩子的行为,他们会向警察局投诉举报。
当然,他们不会与我们一样慢慢观看影集图片翻看或滚动数字页面。下述让我们看看新技术工作原理。
-
他们会先获取由儿童安全组织收集并验证属于 CSAM 的图像。在这一阶段是手工工作。
-
然后他们将这一堆图像转成哈希值。哈希值是一行符号,用来描述图片的内容。无论图片是否被更改、裁切、调整大小,符号顺序都会保持不变。
-
他们将属于 CSAM 图片库的哈希值上传至您的设备。CSAM 图库被硬编码到 OS 图像中,因此您将始终在您的设备中只会有此仓库中的哈希值。原始图片不会存储在您的设备上。可是,谁想要保存 CSAM 哈希值的仓库?
-
他们为所有将上传 Apple iCloud 的图片计算哈希值。
-
把在设备上计算出的哈希值与 CSAM 哈希值进行比较。比较在设备上进行。
在这里也要提到一点,Apple 上的图片默认上传 iCloud。必要的话,用户需要自己手动禁用该功能。
- 如找到匹配的符号顺序,苹果公司会再此手动检查账户。如果检阅者确认是 CSAM 图像数据库内的一张图片,苹果会向 NCMEC 投诉举报。NCMEC 是指全国失踪和被剥削儿童中心。这是 1984 年由美国国会成立并与执法部门合作的组织。
机器人会犯错误
基于机器学习进行识别的人工智能算法的运行效果都具有概率特性(“以下行为最可能或可能出现在图片上”)。人工智能无法百分之百正确判断。总会有一定比例的假阳性(在我们的情况下,总会有错误判断图片属于 CSAM 项目的情况)。
在识别算法的运行上还会有其他缺陷。比如,神经网络总会遭受过拟合的影响。它们学习如何对一组数据进行分析来了解格式与相关性,以后用这些格式与相关性来在其他数据上寻找相关性。过拟合可在一组学会数据太小或过于简化情况下发生。结果,人工智能“适应”已学会的数据集,而无法分析其他数据或现实世界的例子。这样它以为苹果只能是红色的,或无法区分吉娃娃和蓝莓玛芬。
用户已搜索到具有一样哈希值的不同图片。这是自然产生的哈希值碰撞(NeuralHash ),而这就是我们担心的一点。
图片来源:Roboflow
不过,苹果公司也考虑过这一问题,因此他们打算让人参与可疑情况的分辨。这些人是谁?他们向谁举报?他们具体负责什么?他们的意图是否纯洁?
人犯过错
仅在一年前,Facebook 被曝光向数百万名承包商支付巨额让承包商转录其服务用户的录音。承包商向媒体抱怨说,没有人向他们解释录音的来源以及转录的原因。只是让他们转录。有些工作人员因为需要听其他人个人谈话造成心理创伤。有时候他们要听人吵架以及俗气内容。我们可以料想参加“俗气谈话”的人可能也不太高兴居然有自由工作者听了他们的谈话。
实际上,这是很多社交媒体公司很普遍的做法。Facebook 被批评的原因是因为它的工作组织很混乱。2019 年 8 月,Google、Amazon 和 Apple 允许客户禁用将向语音助手发送的记录发送至公司的默认设置。没错,以前某些人能听其他人问 Siri 和 Alexas,并向 Apple 和 Amazon 投诉举报。
此外,2020 年研究还发现语音助手的误判。有 1000 多单词听起来与语音助手的名称或指令很像。比如,Alexa 在 «election»(选举)这个单词上可以识别自己的名称,就向 Amazon 的承包商发送您关于某一个国家总统选举的议论。
工作原理以及发生问题的可能性有多高
那么什么时候不是机器人而苹果选择的人员开始查看您的图片?
这就是前面提到的概率的作用。
图片哈希值与 CSAM 哈希值进行相比。相比的结果保存在所谓的安全凭证( safety voucher)。据苹果的解释,是指一组“对匹配结果以及关于图片的额外加密数据进行编码”的数据。
这些额外数据是指什么呢?就是图片。苹果关于 CSAM 检测的官方文件提到“视觉衍生品”(“visual derivative”)。显示图片的图片。就是您的图片但是其质量较低。下述是大概的流程,因为还没有人真确知道安排这过程的详情。
这个凭证与图片一起上传到 iCloud 照片。
系统使用另一个叫做门限秘密共享的技术确认,当 iCloud 照片账户不超过已知 CSAM 内容门限值时,安全凭证的内容不会被苹果阻止。门限值的设置提供极高位准精确度并确保每年错误标记账户属于有威胁会降低至不到一万亿分之一。
一万亿分之一,听起来好像很棒是吗?
不过,让我指出一点,这是标记一个特定的账户存在虐待儿童行为的可能性。人员检阅并确认照片属于虐待儿童的项目后,账户就会被标记。但是对某一张照片哈希值匹配假阳性的可能性已经很高。这意味着由于系统错误需有人员查看您的照片的可能性是十亿分之一。
如此,即使一张照片只有十亿分之一的可能性被误判,但是人们在 iCloud 会上传多少图片?我们可以估计一下。比如,我们知道 2021 年每天在 Facebook 上传的图片数量为三亿四千万。不到一年上传的照片数量就会为十万亿。虽然 Facebook 比 Apple 的用户更多,但是并不是每一个用户将手机上的所有照片都上传至社交媒体。
首先,上传照片的数量成倍升高。其次,即使只存在十亿分之一的机会有鲨鱼能吃掉您,您还是不想成为那个 “幸运儿”。因为这个情况确实很严重。即使成为上热搜的明星,也不值得。
错误标记的后果非常严重。比如,即使您最后得到了正义,或 Apple 承认了其错误的行为,被怀疑虐待儿童还是可以使您进入某一个人力资源部门的黑名单。
人们为什么要担心 CSAM 检测?
让我们总结一下。
- 可能的算法错误,导致对正常生活与事业的破坏性后果。
- 软件错误。不要与第一点混淆。在这一技术发展的阶段中,机器犯错被认为是正常的。事实上,错误也很正常,没有不犯错误的软件。但是,犯错的成本不同。导致个人数据被泄漏的错误一般属于最高价的一种。
- 不透明的系统(苹果公司因其不愿意公开其产品的工作原理而引起争议)。用户的唯一个选择只有相信苹果公司的意向是好的,且他们非常重视用户隐私并想要保护它。
- 信任缺乏。在所有苹果公司(和其他公司)的隐私保护缺陷与犯罪以后,我们为什么还要继续相信他们?
- 外推的潜力。将该技术扩展到分析和检测其他类型数据的可能性。在“保护儿童”的保护伞下,各种公司会有更多机会探查您的数据。
- 滥用数据的可能性。坏人或黑客是否可以将特定照片上传到您的 iPhone,而这张照片将会匹配特定哈希值。顺便再提一句,具有特定哈希值的图像库已整理好了。
右边的照片是人工调整的,故意让它与左边的照片具有一样的哈希值。图片来源:Roboflow
根据上述所讲的解释了我们为什么要绞尽脑汁,思考能够让用户管理苹果分析他们图片的方式。在我们的社交媒体账号我们发起了投票。绝对多数的成员(大概 86%)想要禁用 CSAM 扫描。我们不相信所有投票的人都虐待儿童。他们只是能看到潜在的风险。
我们考虑用 AdGuard DNS 避免将安全凭证上传到 iCloud 并屏蔽 CSAM 检测。如何才能做到呢?这是取决于 CSAM 检测功能应用的方式。在详细了解该方式前,我们不能承诺任何具体的东西。
假设苹果公司开始与第三方合作,谁知道这个图像库会变成什么样?每一个流程都可以被屏蔽,但是目前我们还无法宣布哪一个解决方案是最好的,而我们是否能将它简单地应用到我们的 AdGuard DNS。需要更多研究并测试。
除此之外,我们也可以屏蔽 iCloud 授权。对所有 AdGuard DNS 的用户来说,这个方法还是较极端的,但我们可以将它作为其中的一个解决方案。问题是,为什么在手机上不禁用 iCloud 即可?而且根据所发生的事情,我们确实建议您考虑这个。