删除R中的对象元数据

时间:2017-09-21 17:00:45

标签: r data-security anonymize

我正在编写一些代码来匿名化R数据集,以便从数据中删除任何有用的信息,同时保留对其运行回归等重要的结构。我想确保我删除了所有可能的地方,任何有关数据的有用信息都可能隐藏起来。到目前为止,我的流程是:

  1. 用无信息名称(x1,x2,...)
  2. 替换数据框的变量名称
  3. 将所有分类变量转换为具有简单数字级别的因子
  4. 缩放并居中所有数值变量(逻辑或0/1除外)
  5. 使用attributes(x) <- NULL来删除通过haven等添加的变量标签等内容。
  6. 在指出这个程序时,我试图保持我的锡纸帽。我是否覆盖了所有基础,或者是否有其他方式有关数据内容的信息可能隐藏在我的数据集中?

    注意:我特别询问是否删除了R对象中明确包含的所有信息。例如,一个不了解属性的新手R用户可能会认为步骤1-3本身足以剥离可读信息的对象。我想确定是否还有其他功能可能需要剥离。数据结构中是否存在任何有说服力的信息的问题与我的更广泛的任务相关,但超出了本网站的范围,我想可能会有大量的信息。

0 个答案:

没有答案