我基本上有一个很大的文本数据集(多TB)(采用JSON,但我可以将其更改为dict或dataframe)。它具有多个键,例如“组”和“用户”。
现在,我通过阅读这些键的整个文本来过滤数据。拥有一个仅过滤和读取密钥的结构,效率会更高。
如果适合内存,执行上述操作将是微不足道的,我可以使用标准的dict / pandas方法和哈希表。但这不适合内存。
为此必须有一个现成的系统。谁能推荐一个?
有关于此的讨论,但是一些更好的讨论已经过时了。我正在寻找最简单的现成解决方案。
答案 0 :(得分:1)
我建议您使用readlines(CHUNK)
方法将大文件拆分为多个小文件,然后可以一个一个地处理它。
我与大型Json一起工作,开始时,文件处理过程为45秒,我的程序运行了2天,但是当我分裂时,程序仅完成了4小时