我的工作是处理大量的xmls;为了获得更快的结果,我想使用ipython的并行处理;下面是我的示例代码。因为我只是用celementTree
模块找到xml / xsd的元素数量。
>>> from IPython.parallel import Client
>>> import os
>>> c = Client()
>>> c.ids
>>> lview = c.load_balanced_view()
>>> lview.block =True
>>> def return_len(xml_filepath):
import xml.etree.cElementTree as cElementTree
tree = cElementTree.parse(xml_filepath)
my_count=0
file_result=[]
cdict={}
for elem in tree.getiterator():
cdict[my_count]={}
if elem.tag:
cdict[my_count]['tag']=elem.tag
if elem.text:
cdict[my_count]['text']=(elem.text).strip()
if elem.attrib.items():
cdict[my_count]['xmlattb']={}
for key, value in elem.attrib.items():
cdict[my_count]['xmlattb'][key]=value
if list(elem):
cdict[my_count]['xmlinfo']=len(list(elem))
if elem.tail:
cdict[my_count]['tail']=elem.tail.strip()
my_count+=1
output=xml_filepath.split('\\')[-1],len(cdict)
return output
## return cdict
>>> def get_dir_list(target_dir, *extensions):
"""
This function will filter out the files from given dir based on their extensions
"""
my_paths=[]
for top, dirs, files in os.walk(target_dir):
for nm in files:
fileStats = os.stat(os.path.join(top, nm))
if nm.split('.')[-1] in extensions:
my_paths.append(top+'\\'+nm)
return my_paths
>>> r=lview.map_async(return_len,get_dir_list('C:\\test_folder','xsd','xml'))
获得我必须做的最终结果
>>> r.get()
通过这个我将得到结果,当过程将完成时我的问题是我能够在他们完成时获得中间结果;
例如,如果我将我的工作应用到包含1000个xmls / xsds文件的文件夹,那么我可以在处理完特定文件后立即获得结果。像1st file is done--> show its result... 2nd file is done---> show its result........ 1000th file is done--> show its result
一样不像上面的当前工作; wait till final file get finished
然后它将显示所有这1000个文件的完整结果。
还处理我在import
函数内定义return_len
的导入/命名空间错误;有没有更好的方法来解决这个问题?
答案 0 :(得分:4)
不确定。 AsyncMapResult(map_async返回的类型)可以立即迭代,
并且迭代产生的项目与r.get()
最终生成的列表相同。所以在你这样做之后:
amr = lview.map_async(return_len, get_dir_list('C:\\test_folder','xsd','xml'))
你可以这样做:
for r in amr:
print r
或使用枚举
保留索引for i,r in enumerate(amr):
print i, r
或使用内置reduce
内容进行缩减:
summary_result = reduce(myfunc, amr)
所有这些都将在结果到达时迭代。如果您不关心排序并且每项任务的时间变化很大,您可以通过map_async(...,ordered=False)
。如果您这样做,当您遍历AMR时,您将以先到先得的方式获得单独的结果,而不是保留提交顺序。
还有更多信息in the ipython docs。
还处理导入/命名空间错误我在return_len函数中定义了import;有没有更好的方法来解决这个问题?
是和否。有几种方法可以设置引擎名称空间,例如使用模块,@parallel.require("module")
装饰器,或者只是使用%px import xml.etree.cElementTree as cElementTree
显式执行导入,每种方法在某些情况下都有好处。但我经常发现将函数中的导入作为最简单的方法,而且意外最少。