应用错误收集

我正在努力获取大约2.000.000行中的很多行，我将其分组在一个列中。

它工作了好长时间，但是当我使用Python3尝试使Numpy array_split永久加载时，它花费的时间太长了，我在测试时就不能一直等待它。

正常情况下，如果我不在熊猫中使用groupby，则需要花费几秒钟的时间，但是现在当我使用groupby（'columen'）时，我无法轻松拆分数据框。

def parallelize(data, func):
    data_split = np.array_split(data, partitions)

    pool = Pool(cores)
    data = pd.concat(pool.map(func, data_split))
    pool.close()
    pool.join()

    return data

您可以看到我正在尝试使多线程更快地处理我的功能。

当我取消对Pandas中的groupby函数的注释时，它的工作很顺畅，因此它的groupby和array_split出现了麻烦。

带有numpy array_split的Pandas groupby要花很多时间

0 个答案: