我需要在MongoDB中的几个字段名称上合并5个集合,并将其作为CSV文件返回。我可以使用ToString()
方法将集合读入大熊猫,没问题,并使用from_records
合并其中的一个子集,但是问题是我要合并的每个数据框都有20,000+列和100,000+行。由于大小,合并过程显然非常缓慢。
我从未处理过如此数量级的数据-我可以通过哪些方法来加快此过程?也许此时熊猫不是正确的工具?
答案 0 :(得分:1)
我想您需要分发您的处理程序。
执行此操作的一种方法是将输入分成多个块,使用多重处理生成中间输出,然后最后将它们全部合并。
我如何在熊猫中做到这一点?