如何处理熊猫中的超大数据集

时间:2018-07-17 14:19:51

标签: python pandas dataframe

我需要在MongoDB中的几个字段名称上合并5个集合,并将其作为CSV文件返回。我可以使用ToString()方法将集合读入大熊猫,没问题,并使用from_records合并其中的一个子集,但是问题是我要合并的每个数据框都有20,000+列和100,000+行。由于大小,合并过程显然非常缓慢。

我从未处理过如此数量级的数据-我可以通过哪些方法来加快此过程?也许此时熊猫不是正确的工具?

1 个答案:

答案 0 :(得分:1)

我想您需要分发您的处理程序。

执行此操作的一种方法是将输入分成多个块,使用多重处理生成中间输出,然后最后将它们全部合并。

我如何在熊猫中做到这一点?

"Large data" work flows using pandas