我在一本书(面试问题)中读到了这个问题,并想在这里详细讨论这个问题。请点亮它。
问题如下: -
隐私权&匿名
马萨诸塞州集团保险委员会在20世纪90年代中期提出了一个很好的想法 - 它决定发布关于州员工的“匿名”数据,这些数据显示了他们每次就诊的医院。
目标是帮助研究人员。州政府花时间删除名称,地址和社会保障等标识符。马萨诸塞州州长向公众保证,这足以保护患者隐私。
然后一名研究生,看到了这种方法的重大缺陷。她要求提供数据副本,并通过将数据整理成多列,她能够确定总督的健康记录。
这表明在匿名数据时需要特别小心。确保隐私的一种方法是聚合数据,使得任何记录都可以映射到至少k个人,对于某些大的k值。
我想通过某种示例设置实际遇到这个问题,然后实现这种匿名化的实际需要。我希望你对这个问题很清楚......
我没有经验丰富的人,可以帮我处理这类问题。请不要投票来结束这个问题.....如果发生这种情况我会无助......
谢谢&如果需要更多解释,请提出问题。
答案 0 :(得分:4)
我只是复制了你文字的粘贴部分,偶然发现了this
这有助于了解您的问题:
当GIC发布数据时,马萨诸塞州州长威廉·韦尔德向公众保证,GIC通过删除标识符来保护患者隐私。作为回应,当时的研究生斯威尼开始在GIC数据中寻找州长的医院记录。她知道州长韦尔居住在马萨诸塞州剑桥市,这个拥有54,000名居民的城市和七个邮政编码。 20美元,她从剑桥市购买了完整的选民名册,这是一个数据库,其中包含每个选民的姓名,地址,邮政编码,出生日期和性别等。通过将这些数据与GIC记录相结合,斯威尼轻松地找到了州长韦尔德。剑桥只有六个人分享了他的出生日期,其中只有三个是男性,其中只有他住在他的邮政编码中。在戏剧性的蓬勃发展中,斯威尼博士将总督的健康记录(包括诊断和处方)送到了他的办公室。
轰!但这只是斯威尼职业生涯中的一个早期标志;在2000年,她表明,只有三位信息可以唯一识别出87%的美国人:邮政编码,生日和性别。
好吧,正如你所说,你需要一个随机数据库,并确保任何记录都可以映射到至少k个人,对于一些大的k值。
换句话说,您需要清除歧视性信息的数据库。例如,如果你只在数据库中保留性别(M / F),那么就没有办法找出谁是谁。因为只有两个条目:M和F.
但是,如果您采用生日,那么您的总条目数或多或少变为2 * 365 * 80~ = 50.000。 (我选择了80年)。即使你的数据库包含500.000人,也有可能其中一个人(比如1985年3月3日出生的男性)是唯一一个有此类记录的人,因此你可以认出他。
这只是一种依赖于组合内容的简单方法。如果您想要更复杂的内容,请查找correlated information和PCA
编辑:我们举个例子。让我们假设我正在处理医疗事务。如果我只保留
这导致2 * 4 * 2 * 50 * 12 * 10 = 96.000类别的类别总数。因此,如果您的数据库包含200.000.000个条目(粗略估计美国境内数据库中的居民数量),则无法识别某人。
这也意味着您不提供任何进一步的信息,没有邮政编码等...只有 给出的6个信息,你可以计算一些不错的信息统计数据(12月出生的人寿命更长?)但是没有可能的鉴定,因为96.000非常低于200.000.000。
但是,如果您只拥有您居住的城市的数据库,例如拥有200,000居民的人,那么您无法保证匿名化。因为200.000比96.000“不大”。 (“不大得多”是一个真正复杂的科学术语,需要概率知识:P)
答案 1 :(得分:0)
“我想实际遇到这个问题,设置了一些示例,然后实际进行匿名化。”
您还可以通过单独找到一个数据集来构建自己的数据集,对其进行“匿名化”并尝试重新构建数据集。
答案 2 :(得分:0)
以下是对去识别/匿名化问题的详细讨论,以及潜在的工具和解决这些问题的技巧。
上述文件的管辖范围属于加拿大公共卫生系统的规则,但它们在概念上适用于其他司法管辖区。
对于美国,您需要特别遵守HIPAA去识别要求。 http://www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/De-identification/guidance.html
“概念上适用”并不意味着“符合”。例如,要符合欧盟要求,您需要深入了解其特定的欧盟要求以及国家要求和潜在的州/地方要求。