分配给基于新ID的多个列(在R中)

时间:2018-01-29 03:51:21

标签: r machine-learning classification

这有点奇怪。我有一个包含数千行的数据集。我无法分享。标题包括:

  • 记者证号
  • 记者姓名
  • 建筑ID
  • 建筑名称
  • 控制器ID
  • 控制器名称
  • 纬度(适合某些人)
  • 经度(对某些人来说)
  • 其他不用于识别的栏目

建筑物是我的分析单位。但是,有问题。

首先,数据是手动输入的,因此请指出应该每年不断更改的内容(例如" Business Inc。"然后" Business Incorporated")。更糟糕的是,当控制器或记者改变时(建筑物出售时会发生),建筑物ID会发生变化。

例如,在2015年,可能会建造一座建筑物" Big Building",建筑物ID为" 1111"并有一个名为" Tiny Tim"的控制器。然后在2016年它被出售,现在它出现在" The Big Building",建筑物ID是" 4567",而控制器是" Tiny Tim"。它是同一个建筑物,但是这个数据集并没有跟踪它。这是我的问题。

我想要的内容:创建一个实际标识建筑物的新ID列,并且不会在多年或记者或控制器中发生变化。然后可以将此ID与年份一起用于查找报告者和控制者(如果需要)。

但是,我不知道该怎么做。我认为必须有一些东西可以看到'建立名称' (注意它可以每年进行微小的更改)以及其他支持ID列,并估计是否在新列中分配新ID,或者是否已将ID分配给此建筑物然后应用该建筑物。这有意义吗?

有人可以指出我正确的方向开始吗?

0 个答案:

没有答案