在重复数据删除库中增加max_components变量

时间:2017-08-03 09:55:57

标签: python pyspark record-linkage python-dedupe

如何在max_components变量中增加默认值?

默认情况下max_components设置为30000.我需要增加此限制,因为每次进行重复数据删除(使用相同的数据集)时,我都会得到不同的结果。

我认为我数据中的群集总量大于30000。

1 个答案:

答案 0 :(得分:1)

来自Github的回答

Issue in dedupe github Increase max_components = 30000

  

如果使用相同的已保存设置文件获得不同的结果,   然后你报告的是一个错误。如果你得到不同的结果   来自不同的训练数据(甚至是相同的训练数据)   预期在各个点重复数据删除使用随机样本来学习   好的规则。

     

在任何一种情况下,我都怀疑max_components是否相关。但是,如果你   想要改变它,分叉代码并改变它。