应用错误收集

如何迭代/遍历R / Python中的大型（> 2GB）JSON数据集？

时间：2017-04-22 19:05:21

标签： python json r bigdata

我试图使用R对大型（2.7 GB）JSON数据集进行一些探索性分析，但是，该文件甚至不会首先加载。在寻找解决方案时，我看到我可以用更小的块处理数据，即通过迭代更大的文件或通过对其进行下采样。但我不确定如何使用JSON数据集。我还考虑过将原始的JSON数据转换为.csv，但在浏览一下这个选项之后看起来并不那么有用。

这里有什么想法吗？

1 个答案:

答案 0 :(得分：1)

jsonlite R包支持流式传输数据。这样就不需要将所有json数据读入内存。有关详细信息，请参阅jsonlite的文档，特别是stream_in函数。

可替换地：

我会将json转储到mongo数据库并处理该数据。你需要安装mongodb，然后开始运行mongod。之后，您可以使用mongoimport将json文件导入数据库。

之后，您可以使用mongolite包从数据库中读取数据。