熊猫数据框上基于GPU的计算

时间:2020-08-01 12:47:42

标签: python pandas gpu

我有一个pandas数据框作为doepy包的输出,该包包含大约5000行。每列都包含我的用户定义函数的值。

doepy输出(我们叫此paramTable):

| paramA | paramB | paramC | paramD | paramE |
| ------ | ------ | ------ | ------ | ------ |
| 1      | 2      | 3      |  4     | 5      |
| 6      | 7      | 8      |  9     | 10     |
| ------ | ------ | ------ | ------ | ------ |

用户定义的函数(伪代码)

def myfunc(df, a, b, c, d, e):
    # do something to df, which is another dataframe

paramTable的迭代:

for index, row in paramTable.iterrows():
    myfunc(df, row['paramA'], row['paramB']...)

每次运行myfunc大约需要2秒钟。它调用了一些用户定义的函数并执行了一些熊猫操作。它已在Python中进行了优化。我可以使用Numba或Cython进一步优化它,但是它仍然无法适应将在不同版本的paramTable上执行的myfunc调用的数量。

使用GPU在较大的myfunc上执行paramTable的最佳方法是什么?我知道GPU的时钟速度远低于CPU,但是从更大的角度看,GPU看起来很适合。

0 个答案:

没有答案