我有15个大数据帧(每个26000x2500)。我目前将它们作为数据帧的字典,但是可以根据需要进行更改。
我需要在每列上执行操作(大约2500个),并且它们是完全独立的,因此我认为这是并行处理的理想选择。目前,我的代码可以在几个小时内运行,但是我想使其更快。
这是我的代码结构:
Main.py
import Processor
# Build dataframes from CSV files
dataframes = ...
p = Processor(dataframes)
p.run()
Processor.py
import multiprocessing as mp
class Processor():
def __init__(self, dataframes):
self._dataframes = dataframes
def run():
# Loop at each column
# Launch new process and perform operations on column
# Receive results back and store them
我有2个问题: