使用多个核同时处理多个数据文件

时间:2017-01-16 16:20:29

标签: python python-3.x multicore

我有多个数据文件,我使用python Pandas库处理。每个文件都是逐个处理的,当我查看任务管理器时,只使用一个逻辑处理器(约为95%,其余都在5%以内)

有没有办法同时处理数据文件? 如果是这样,有没有办法利用其他逻辑处理器来做到这一点?

(欢迎编辑)

2 个答案:

答案 0 :(得分:1)

如果您的文件名在列表中,则可以使用以下代码:

from multiprocessing import Process

def YourCode(filename, otherdata):
    # Do your stuff

if __name__ == '__main__':
    #Post process files in parallel
    ListOfFilenames = ['file1','file2', ..., 'file1000']
    ListOfProcesses = []
    Processors = 20 # n of processors you want to use
    #Divide the list of files in 'n of processors' Parts
    Parts = [ListOfFilenames[i:i + Processors] for i in xrange(0, len(ListOfFilenames), Processors)]

    for part in Parts:
        for f in part:
            p = multiprocessing.Process(target=YourCode, args=(f, otherdata))
            p.start()
            ListOfProcesses.append(p)
        for p in ListOfProcesses:
            p.join()

答案 1 :(得分:0)

您可以在不同的线程或不同的进程中处理不同的文件。

python的优点在于它的框架为您提供了执行此操作的工具:

<ul class="a"> 
  <li>me</li>
</ul>

该程序将启动2个子进程,可用于处理您的文件。 对于cource,你可以用线程做类似的事情。

您可以在此处找到文档: https://docs.python.org/2/library/multiprocessing.html

在这里:

https://pymotw.com/2/threading/