应用错误收集

时间：2018-06-22 16:50:29

标签： python database hashtable

我基本上有一个很大的文本数据集（多TB）（采用JSON，但我可以将其更改为dict或dataframe）。它具有多个键，例如“组”和“用户”。

现在，我通过阅读这些键的整个文本来过滤数据。拥有一个仅过滤和读取密钥的结构，效率会更高。

如果适合内存，执行上述操作将是微不足道的，我可以使用标准的dict / pandas方法和哈希表。但这不适合内存。

为此必须有一个现成的系统。谁能推荐一个？

有关于此的讨论，但是一些更好的讨论已经过时了。我正在寻找最简单的现成解决方案。

答案 0 :(得分：1)

我建议您使用readlines(CHUNK)方法将大文件拆分为多个小文件，然后可以一个一个地处理它。我与大型Json一起工作，开始时，文件处理过程为45秒，我的程序运行了2天，但是当我分裂时，程序仅完成了4小时