隐私和匿名化“算法”

时间:2011-06-06 07:39:28

标签: algorithm

我在一本书(面试问题)中读到了这个问题,并想在这里详细讨论这个问题。请点亮它。

问题如下: -

隐私权&匿名

马萨诸塞州集团保险委员会在20世纪90年代中期提出了一个很好的想法 - 它决定发布关于州员工的“匿名”数据,这些数据显示了他们每次就诊的医院。

目标是帮助研究人员。州政府花时间删除名称,地址和社会保障等标识符。马萨诸塞州州长向公众保证,这足以保护患者隐私。

然后一名研究生,看到了这种方法的重大缺陷。她要求提供数据副本,并通过将数据整理成多列,她能够确定总督的健康记录。

这表明在匿名数据时需要特别小心。确保隐私的一种方法是聚合数据,使得任何记录都可以映射到至少k个人,对于某些大的k值。

我想通过某种示例设置实际遇到这个问题,然后实现这种匿名化的实际需要。我希望你对这个问题很清楚......

我没有经验丰富的人,可以帮我处理这类问题。请不要投票来结束这个问题.....如果发生这种情况我会无助......

谢谢&如果需要更多解释,请提出问题。

3 个答案:

答案 0 :(得分:4)

我只是复制了你文字的粘贴部分,偶然发现了this

这有助于了解您的问题:

  
    

当GIC发布数据时,马萨诸塞州州长威廉·韦尔德向公众保证,GIC通过删除标识符来保护患者隐私。作为回应,当时的研究生斯威尼开始在GIC数据中寻找州长的医院记录。她知道州长韦尔居住在马萨诸塞州剑桥市,这个拥有54,000名居民的城市和七个邮政编码。 20美元,她从剑桥市购买了完整的选民名册,这是一个数据库,其中包含每个选民的姓名,地址,邮政编码,出生日期和性别等。通过将这些数据与GIC记录相结合,斯威尼轻松地找到了州长韦尔德。剑桥只有六个人分享了他的出生日期,其中只有三个是男性,其中只有他住在他的邮政编码中。在戏剧性的蓬勃发展中,斯威尼博士将总督的健康记录(包括诊断和处方)送到了他的办公室。

  
     

轰!但这只是斯威尼职业生涯中的一个早期标志;在2000年,她表明,只有三位信息可以唯一识别出87%的美国人:邮政编码,生日和性别。

好吧,正如你所说,你需要一个随机数据库,并确保任何记录都可以映射到至少k个人,对于一些大的k值。

换句话说,您需要清除歧视性信息的数据库。例如,如果你只在数据库中保留性别(M / F),那么就没有办法找出谁是谁。因为只有两个条目:M和F.

但是,如果您采用生日,那么您的总条目数或多或少变为2 * 365 * 80~ = 50.000。 (我选择了80年)。即使你的数据库包含500.000人,也有可能其中一个人(比如1985年3月3日出生的男性)是唯一一个有此类记录的人,因此你可以认出他。

这只是一种依赖于组合内容的简单方法。如果您想要更复杂的内容,请查找correlated informationPCA

编辑:我们举个例子。让我们假设我正在处理医疗事务。如果我只保留

  • 性别:2种可能性(M,F)
  • 血型:4种可能性(O,A,B,AB)
  • 恒河猴:2种可能性(+, - )
  • 他们居住的州:50种可能性(如果你在美国)
  • 出生月份:12种可能性(影响婴儿死亡率)
  • 他们的年龄类别:10种可能性(0-9岁,10-19岁...... 90-无穷大)

这导致2 * 4 * 2 * 50 * 12 * 10 = 96.000类别的类别总数。因此,如果您的数据库包含200.000.000个条目(粗略估计美国境内数据库中的居民数量),则无法识别某人。

这也意味着您提供任何进一步的信息,没有邮政编码等...只有 给出的6个信息,你可以计算一些不错的信息统计数据(12月出生的人寿命更长?)但是没有可能的鉴定,因为96.000非常低于200.000.000。

但是,如果您只拥有您居住的城市的数据库,例如拥有200,000居民的人,那么您无法保证匿名化。因为200.000比96.000“不大”。 (“不大得多”是一个真正复杂的科学术语,需要概率知识:P)

答案 1 :(得分:0)

  

“我想实际遇到这个问题,设置了一些示例,然后实际进行匿名化。”

您还可以通过单独找到一个数据集来构建自己的数据集,对其进行“匿名化”并尝试重新构建数据集。

答案 2 :(得分:0)

以下是对去识别/匿名化问题的详细讨论,以及潜在的工具和解决这些问题的技巧。

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0CDQQFjAA&url=https%3A%2F%2Fwww.infoway-inforoute.ca%2Findex.php%2Fcomponent%2Fdocman%2Fdoc_download%2F624-tools-for-de-identification-of-personal-health-information&ei=QiO0VL72J-3nsATkl4CQBg&usg=AFQjCNF3YUE2cl9QZTuw-L4PYtWnzmwlIQ&sig2=JE8bYkqg04auXstgF0f7Aw&bvm=bv.83339334,d.cWc

上述文件的管辖范围属于加拿大公共卫生系统的规则,但它们在概念上适用于其他司法管辖区。

对于美国,您需要特别遵守HIPAA去识别要求。 http://www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/De-identification/guidance.html

“概念上适用”并不意味着“符合”。例如,要符合欧盟要求,您需要深入了解其特定的欧盟要求以及国家要求和潜在的州/地方要求。