我试图使用R对大型(2.7 GB)JSON数据集进行一些探索性分析,但是,该文件甚至不会首先加载。在寻找解决方案时,我看到我可以用更小的块处理数据,即通过迭代更大的文件或通过对其进行下采样。但我不确定如何使用JSON数据集。我还考虑过将原始的JSON数据转换为.csv,但在浏览一下这个选项之后看起来并不那么有用。
这里有什么想法吗?
答案 0 :(得分:1)
jsonlite
R包支持流式传输数据。这样就不需要将所有json数据读入内存。有关详细信息,请参阅jsonlite
的文档,特别是stream_in
函数。
可替换地:
我会将json转储到mongo数据库并处理该数据。你需要安装mongodb,然后开始运行mongod。之后,您可以使用mongoimport
将json文件导入数据库。
之后,您可以使用mongolite
包从数据库中读取数据。