标签: pandas hadoop
有没有办法可以将pandas数据帧用作Hadoop map-reduce中的流媒体源?
这正是我现在正在做的以及我想要的。
目前我正在使用pandas数据帧从csv加载数据。 然后我使用一些中间数据帧进行计算和存储结果。
但随着脚本继续运行,处理速度会慢下来。
pandas数据框是否可以与hadoop上的map-reduce一起使用?
问题很模糊,但有办法吗?