我在json中存储了大量数据,这些数据太大而无法加载到内存中。 json字段包含有关用户的数据和一些元数据-但是,肯定有一些重复项。我想浏览并整理文件,以特定方式合并重复项。
但是,我不确定这样做的最佳实践是什么。我曾考虑使用Bloom过滤器,但是Bloom过滤器不会让我知道重复的是 of 的重复,因此我无法完全合并。有什么我可以阅读/看到的最佳实践是什么?有哪些行业标准?所有这些都需要在python中完成。
答案 0 :(得分:1)
您可以按哈希值将记录划分为适合内存的较小集合,删除每个集合中的重复项,然后将它们重新组合成一个文件。