如何定义python多处理函数的输入以获取目录中的所有文件?

时间:2014-10-28 16:04:31

标签: python multiprocessing

这个问题可能听起来很基本,因为我对多处理知之甚少,我只是在学习。

我有python代码处理目录中的一堆文件。

with Pool(processes=cores) as pp:  
        pp.map(function, list)

这是我的代码:

path = '/data/personal'
print("Running with PID: %d" % getpid())



    psl = PublicSuffixList()
    d = defaultdict(set)
    start = time()

#
     files_list = glob(path)
     for filename in files:
        print(filename)
        f = open(filename, 'r')
        for n, line in enumerate(f):
            line = line[:-1]
            ip,reversed_domain_1= line.split('|')
            reversed_domain_2 = reversed_domain_1.split('.')
            reversed_domain_3 = list(reversed(reversed_domain_2))
            domain = ('.'.join(reversed_domain_3))
            domain = psl.get_public_suffix(domain)
            d[ip].add(domain)

###
    for ip, domains in d.iteritems():
        for domain in domains:
            print(ip,domain)

如何将其转换为在多处理池中完成?

1 个答案:

答案 0 :(得分:2)

您可以在单独的流程中处理每个文件,如下所示:

from os import getpid
from collections import defaultdict
from glob import glob
from multiprocessing import Pool
from time import time
from functools import partial

path = '/data/personal'
print("Running with PID: %d" % getpid())


def process_file(psl, filename):
    print(filename)
    f = open(filename, 'r')
    for n, line in enumerate(f):
        line = line[:-1]
        ip,reversed_domain_1= line.split('|')
        reversed_domain_2 = reversed_domain_1.split('.')
        reversed_domain_3 = list(reversed(reversed_domain_2))
        domain = ('.'.join(reversed_domain_3))
        domain = psl.get_public_suffix(domain)
        return ip, domain

if __name__ == "__main__":
    psl = PublicSuffixList()
    d = defaultdict(set)
    start = time()
    files_list = glob(path)
    pp = Pool(processes=cores)
    func = partial(process_file, psl)
    results = pp.imap_unordered(func, files_list)
    for ip, domain in results:
       d[ip].add(domain)
    p.close()
    p.join()

    for ip, domains in d.iteritems():
        for domain in domains:
            print(ip,domain)

请注意,父进程中会填充defaultdict,因为如果不使用defaultdict,您实际上无法在多个进程之间共享相同的multiprocessing.Manager。如果你愿意,你可以在这里做,但我认为没必要。相反,只要任何孩子有可用的结果,我们就会将其添加到父级中的defaultdict。使用imap_unordered代替map使我们能够按需接收结果,而不必等待所有这些结果都准备就绪。另一个值得注意的事情是使用partial除了psl files_list的项目外,还可以将imap_unordered列表传递给所有子流程。

这里有一个重要的注意事项:使用multiprocessing进行此类操作实际上可能无法提高性能。你在这里做的很多工作都是从磁盘读取,而不是通过多个进程来加速;您的硬盘驱动器一次只能执行一次读取操作。从一堆进程中同时获取不同文件的读取请求实际上会减慢顺序执行它们的速度,因为它可能不得不经常切换到物理磁盘的不同区域以从每个文件中读取新行。现在,你用每条线进行的CPU限制工作可能足以支配I / O时间,在这种情况下你会看到速度提升。