应用错误收集

在需要存储重复的json文件时，有哪些可行的策略可用来检测重复的文件？

时间：2019-04-18 06:23:47

标签： python json data-structures

我在json中存储了大量数据，这些数据太大而无法加载到内存中。 json字段包含有关用户的数据和一些元数据-但是，肯定有一些重复项。我想浏览并整理文件，以特定方式合并重复项。

但是，我不确定这样做的最佳实践是什么。我曾考虑使用Bloom过滤器，但是Bloom过滤器不会让我知道重复的是 of 的重复，因此我无法完全合并。有什么我可以阅读/看到的最佳实践是什么？有哪些行业标准？所有这些都需要在python中完成。

1 个答案:

答案 0 :(得分：1)

您可以按哈希值将记录划分为适合内存的较小集合，删除每个集合中的重复项，然后将它们重新组合成一个文件。