如何加速大熊猫?

时间:2014-02-28 15:32:09

标签: performance python-2.7 parallel-processing pandas

我有一个数字运算程序,它通过一个csv文件(2500行x 180列),每行执行一堆计算。它在经过每一行之后汇总这些计算,然后将所有摘要放入新的数据帧中。这需要很长时间,大约30秒或者其他什么。我正在寻找另一个程序,它将创建大约20个这样的新数据帧,我担心完成整个周期需要很长时间。

是否可以在熊猫中进行并行处理?这是加速的最好方法吗?

编辑:每行的摘要取决于之前的~800行。

2 个答案:

答案 0 :(得分:1)

你可以使用 modin.pandas 它大约比 pandas x4 快,并且它有一些功能。这个包使用并行处理。

答案 1 :(得分:0)

没有看到您的代码,您有几个选择。

  1. 在cython中试用你的代码。 http://cython.org/

  2. 尝试使用pypy运行代码。 http://pypy.org/

  3. 在速度更快的服务器(例如AWS)上运行您的代码。