带有numpy array_split的Pandas groupby要花很多时间

时间:2018-11-21 12:08:18

标签: python pandas numpy dataframe

我正在努力获取大约2.000.000行中的很多行,我将其分组在一个列中。

它工作了好长时间,但是当我使用Python3尝试使Numpy array_split永久加载时,它花费的时间太长了,我在测试时就不能一直等待它。

正常情况下,如果我不在熊猫中使用groupby,则需要花费几秒钟的时间,但是现在当我使用groupby('columen')时,我无法轻松拆分数据框。

def parallelize(data, func):
    data_split = np.array_split(data, partitions)

    pool = Pool(cores)
    data = pd.concat(pool.map(func, data_split))
    pool.close()
    pool.join()

    return data

您可以看到我正在尝试使多线程更快地处理我的功能。

当我取消对Pandas中的groupby函数的注释时,它的工作很顺畅,因此它的groupby和array_split出现了麻烦。

0 个答案:

没有答案