Python记录链接身份

时间:2018-09-20 17:12:44

标签: python record-linkage

R recordlinkage identity类似,但在python中。该算法会生成新的标识,该标识不能反映匹配记录的正确标识。假设具有单个数据帧的数据重复。

PS:data duplication中似乎还可以 例子

1 个答案:

答案 0 :(得分:0)

需要删除使用熊猫生成的索引列,并用数据框中的首选列替换,以用作标识列

逻辑是

replace index column with identify column in dataframe