在python中创建一个大型数据框(几百万行,几千列)的Pandas。该数据帧将使用PyRserve传递给R.这必须很快 - 最多几秒钟。
pandas中有to_json函数。是和json谈话这样的大对象的唯一途径吗?对于这么大的物体可以吗?
我总是可以将它写入磁盘并读取它(快速使用fread,这就是我所做的),但最好的方法是什么?
答案 0 :(得分:2)
如果没有尝试过,to_json
似乎是一个非常糟糕的主意,对于更大的数据帧会变得更糟,因为这会在写入和读取数据时产生大量开销。
我建议使用rpy2(supported directly by pandas),或者如果你想写一些东西到磁盘(可能因为数据帧只生成一次),你可以使用HDF5(参见{{ 3}}有关使用此格式连接pandas和R的更多信息。)