我正在努力获取大约2.000.000行中的很多行,我将其分组在一个列中。
它工作了好长时间,但是当我使用Python3尝试使Numpy array_split永久加载时,它花费的时间太长了,我在测试时就不能一直等待它。
正常情况下,如果我不在熊猫中使用groupby,则需要花费几秒钟的时间,但是现在当我使用groupby('columen')时,我无法轻松拆分数据框。
def parallelize(data, func):
data_split = np.array_split(data, partitions)
pool = Pool(cores)
data = pd.concat(pool.map(func, data_split))
pool.close()
pool.join()
return data
您可以看到我正在尝试使多线程更快地处理我的功能。
当我取消对Pandas中的groupby函数的注释时,它的工作很顺畅,因此它的groupby和array_split出现了麻烦。