这有点奇怪。我有一个包含数千行的数据集。我无法分享。标题包括:
建筑物是我的分析单位。但是,有问题。
首先,数据是手动输入的,因此请指出应该每年不断更改的内容(例如" Business Inc。"然后" Business Incorporated")。更糟糕的是,当控制器或记者改变时(建筑物出售时会发生),建筑物ID会发生变化。
例如,在2015年,可能会建造一座建筑物" Big Building",建筑物ID为" 1111"并有一个名为" Tiny Tim"的控制器。然后在2016年它被出售,现在它出现在" The Big Building",建筑物ID是" 4567",而控制器是" Tiny Tim"。它是同一个建筑物,但是这个数据集并没有跟踪它。这是我的问题。
我想要的内容:创建一个实际标识建筑物的新ID列,并且不会在多年或记者或控制器中发生变化。然后可以将此ID与年份一起用于查找报告者和控制者(如果需要)。
但是,我不知道该怎么做。我认为必须有一些东西可以看到'建立名称' (注意它可以每年进行微小的更改)以及其他支持ID列,并估计是否在新列中分配新ID,或者是否已将ID分配给此建筑物然后应用该建筑物。这有意义吗?
有人可以指出我正确的方向开始吗?