在r中混淆群集数据并保护隐私的技术

时间:2014-06-13 09:59:18

标签: r obfuscation privacy survey

背景

我有一些私人调查数据,其中包含一列机密信息:调查受访者的地理位置。在任何情况下都不能发布这些信息。

在调查研究中很常见,为了让用户正确计算我的调查数据集的差异,这些用户要么需要该地理位置(不可接受),要么需要一组replicate weights。我可以创建那组重复权重;然而,很容易看到这些权重之间的相关性并反向计算哪些调查受访者共享相同的地理位置。这也是不可接受的。

为了帮助我解决这个问题,您不必熟悉replicate weights - 只需将它们视为几列强关联的聚类数据。

据我所知,如果我想维持这种聚类,一个邪恶的数据用户总会对共享地理位置的人进行半决定的猜测;我只是想让猜测游戏不那么精准。对于未混淆的重复权重,恶意数据用户可以找出100%的案例。

请求

我正在寻找一种技术

  • 阻止公共使用文件用户轻松地从我的重复权重变量之间的相关性中推断出共享的地理位置
  • 不会删除我的数据列(重复权重变量)
  • 之间的相关性
  • 可以在R data.frame对象上实现,无需大量时间投入

我说共享因为恶意用户可能不知道该位置在哪里,但他们可能知道两个调查受访者是否来自同一地点 - 这是不可接受的可能性。

我尝试了什么

我真的不想在这里重新发明轮子。我正在寻找r语法,r包或其他任何相对简单的实现方法。我发现了onetwothreefour篇论文,这些论文描述的技术都适用于我的目的;遗憾的是,没有一个作者愿意分享实际代码来实现它们。

我可以做一些简单的事情,例如根据正态分布向我的复制权重列添加和减去随机值,但我更愿意依赖于比我更了解隐私问题的人的工作。

感谢!!!!

1 个答案:

答案 0 :(得分:2)

我写了这个九步教程,试图回答我自己的问题。我不是隐私/保密领域的专家,我很乐意听到关于这个想法和其他想法的反馈。谢谢!

http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html