如何在max_components
变量中增加默认值?
默认情况下max_components
设置为30000.我需要增加此限制,因为每次进行重复数据删除(使用相同的数据集)时,我都会得到不同的结果。
我认为我数据中的群集总量大于30000。
答案 0 :(得分:1)
来自Github的回答
Issue in dedupe github Increase max_components = 30000
如果使用相同的已保存设置文件获得不同的结果, 然后你报告的是一个错误。如果你得到不同的结果 来自不同的训练数据(甚至是相同的训练数据) 预期在各个点重复数据删除使用随机样本来学习 好的规则。
在任何一种情况下,我都怀疑max_components是否相关。但是,如果你 想要改变它,分叉代码并改变它。