使用python数据帧进行map-reduce

时间:2017-04-10 10:22:00

标签: pandas hadoop

有没有办法可以将pandas数据帧用作Hadoop map-reduce中的流媒体源?

这正是我现在正在做的以及我想要的。

目前我正在使用pandas数据帧从csv加载数据。 然后我使用一些中间数据帧进行计算和存储结果。

但随着脚本继续运行,处理速度会慢下来。

pandas数据框是否可以与hadoop上的map-reduce一起使用?

问题很模糊,但有办法吗?

0 个答案:

没有答案