标签: python record-linkage
与R recordlinkage identity类似,但在python中。该算法会生成新的标识,该标识不能反映匹配记录的正确标识。假设具有单个数据帧的数据重复。
PS:在data duplication中似乎还可以 例子
答案 0 :(得分:0)
需要删除使用熊猫生成的索引列,并用数据框中的首选列替换,以用作标识列
逻辑是
replace index column with identify column in dataframe