使用重复数据删除python时资源使用率低

时间:2017-06-01 13:15:42

标签: python pyspark record-linkage python-dedupe

我需要在大型数据集中找到重复项,因此我正在测试dedupe python库。

我知道建议用于小型数据集,所以我认为使用好的机器可以提高性能。我有一台56 GB RAM的机器,我正在运行类似于"csv_example"的测试,用于具有200000行的数据集。它工作但内存使用率非常低,因此处理(CPU)。

在封锁阶段似乎需要太长时间:

INFO:dedupe.blocking:10000, 110.6458142 seconds
INFO:dedupe.blocking:20000, 300.6112282 seconds
INFO:dedupe.blocking:30000, 557.1010122 seconds
INFO:dedupe.blocking:40000, 915.3087222 seconds

是否有人可以帮助我改进使用方法或告诉我是否有任何库/设置使程序使用更多可用资源?

1 个答案:

答案 0 :(得分:2)

您正在使用什么版本的重复数据删除?从1.6.8开始,它应该很容易处理这个大小的记录集。

但是,一般指导是当遇到内存问题时,切换到使用postgres示例中的数据库进行阻止。

(我是重复数据删除的主要作者)。