了解重复数据删除地名词典

时间:2018-08-22 04:28:07

标签: python-dedupe

我为数据修改了gazetteer example,其中包含1044个唯一记录(规范数据集)以与混乱数据集(其中包含约54170条记录)匹配。

我期望凌乱数据集中的每个记录都将被映射到规范数据集中的记录中的1个。 (来自混乱数据集的记录不应包含任何clusterId,在规范数据集中不存在) 但是,我得到了很多clusterId,甚至在规范数据集中也没有。

这是预期的行为吗? 如果是,我如何确保混乱数据集中的每个记录都应与规范数据集中的至少1条记录匹配?

0 个答案:

没有答案