如何迭代/遍历R / Python中的大型(> 2GB)JSON数据集?

时间:2017-04-22 19:05:21

标签: python json r bigdata

我试图使用R对大型(2.7 GB)JSON数据集进行一些探索性分析,但是,该文件甚至不会首先加载。在寻找解决方案时,我看到我可以用更小的块处理数据,即通过迭代更大的文件或通过对其进行下采样。但我不确定如何使用JSON数据集。我还考虑过将原始的JSON数据转换为.csv,但在浏览一下这个选项之后看起来并不那么有用。

这里有什么想法吗?

1 个答案:

答案 0 :(得分:1)

jsonlite R包支持流式传输数据。这样就不需要将所有json数据读入内存。有关详细信息,请参阅jsonlite的文档,特别是stream_in函数。

可替换地:

我会将json转储到mongo数据库并处理该数据。你需要安装mongodb,然后开始运行mongod。之后,您可以使用mongoimport将json文件导入数据库。

之后,您可以使用mongolite包从数据库中读取数据。