使用Python在磁盘上检索大数据的最佳结构?

时间:2018-06-22 16:50:29

标签: python database hashtable

我基本上有一个很大的文本数据集(多TB)(采用JSON,但我可以将其更改为dict或dataframe)。它具有多个键,例如“组”和“用户”。

现在,我通过阅读这些键的整个文本来过滤数据。拥有一个仅过滤和读取密钥的结构,效率会更高。

如果适合内存,执行上述操作将是微不足道的,我可以使用标准的dict / pandas方法和哈希表。但这不适合内存。

为此必须有一个现成的系统。谁能推荐一个?

有关于此的讨论,但是一些更好的讨论已经过时了。我正在寻找最简单的现成解决方案。

1 个答案:

答案 0 :(得分:1)

我建议您使用readlines(CHUNK)方法将大文件拆分为多个小文件,然后可以一个一个地处理它。 我与大型Json一起工作,开始时,文件处理过程为45秒,我的程序运行了2天,但是当我分裂时,程序仅完成了4小时