我第一次尝试在多处理模块中使用Python的ThreadPool来尝试加速一些非常慢的日志解析。
不幸的是,它似乎没有正常工作。我只是通过谷歌搜索找不到任何类似案例的人。我调用pool.join()
等待线程完成,然后迭代它们以访问它们的返回值。但是,我发现当AsyncResult.ready()返回true时,AsyncResult.successful()返回false。当我调用get()时,会引发属性错误。
Traceback (most recent call last):
File "C:\Users\luke.timothy\Documents\Aptana Studio 3 Workspace\Monitor\monitor.py", line 175, in <module>
stamp = threads[i].get()
File "C:\Python27\lib\multiprocessing\pool.py", line 528, in get
raise self._value
AttributeError: _strptime
我还发现join()
函数返回时只完成了4个线程。这是出乎意料的,因为我认为join在返回之前等待所有池项完成。我还发现如果在访问返回值之前在每个线程上调用AsyncResult.wait()
,则没有任何反应。它根本不会等待。
以下是代码:
def parse(all_logs):
current_time_local = datetime.now()
print "Parsing."
stamps = []
for line in all_logs:
match = re.match(match_string, line)
if match:
for i in range(4):
if match.group(1 + (i * 3)):
wheren = match.group(1 + (i * 3)).rstrip().strip("[").strip("]").split(",")
break
stamp = datetime.strptime(wheren[0], "%Y-%m-%d %H:%M:%S")
if stamp.day == current_time_local.day or (stamp.day == current_time_local.day-1 and stamp.hour >= current_time_local.hour):
try:
name, aliases, ipaddrlist = socket.gethostbyaddr(wheren[1].split(":")[1])
except:
continue
stamps.append(Event(stamp,name,match.groups()))
print "Returning stamps."
return stamps
pool = ThreadPool(processes=8)
threads = []
for i in range(8):
range_begin = i * logs_fraction
range_end = range_begin + logs_fraction
print "begin: " + str(range_begin) + " end: " + str(range_end)
thread_args = []
thread_args.extend(all_logs[range_begin:range_end])
threads.append(pool.apply_async(parse, (thread_args, )))
pool.close()
pool.join()
for i in range(8):
print "Getting thread " + str(i+1)
print threads[i].ready()
print threads[i].successful()
print "Thread Ready."
stamp = threads[i].get()
print stamp
stamps.extend(stamp)
有人可以帮忙吗?我以前从未使用过这个模块,就我的谷歌搜索所显示而言,学习它的材料相当稀少。官方的Python文档只能让我到目前为止......
答案 0 :(得分:3)
根据this link,您在日期时间库中遇到线程安全问题。
上周五,我遇到了一个Python Bug,所以本周末我花了一些时间 调查这个bug并写了这篇文章来解释根本原因。 我不是Python专家,而是C程序员。如果你找到了 什么错误请纠正我。
我在这里提取了最小化POC:
#!/usr/bin/env python import thread import time def thread_fn(): for _ in xrange(1, 10): for _ in xrange(1, 100): time.strptime("2013-06-02", "%Y-%m-%d") for _ in xrange(10): thread.start_new_thread(thread_fn, ()) time.sleep(1)
高位代码有时会抛出异常:
AttributeError: _strptime_time
,您可以在您的环境中运行它并检查输出。我检查了Python-2.7.2(Mac默认)和Python-2.7.3(编译自 源代码)。我随机得到了这个错误,这有时意味着这个 脚本工作正常!
解决方法:
你应该意识到这将是一个多线程问题,对吧?这是
的实施time_strptime
,static PyObject * time_strptime(PyObject *self, PyObject *args) { PyObject *strptime_module = PyImport_ImportModuleNoBlock("_strptime"); PyObject *strptime_result; if (!strptime_module) return NULL; strptime_result = PyObject_CallMethod(strptime_module, "_strptime_time", "O", args); Py_DECREF(strptime_module); return strptime_result; }
每次调用此函数时,它都会尝试加载模块 “_strptime”。 API PyImport_ImportModuleNoBlock的算法是 如果有一个线程正在导入该模块,它将抛弃 异常而不是阻止那里。这避免了重复模块 进口和潜在的僵局。
但是在多线程环境中,当一个线程试图导入时 _strptime,但尚未完全导入,另一个线程试图直接调用
strptime_module._strptime_time
。这就是bug的原因 发生了。如果您理解为什么会发生此错误,那么您应该已经知道了 你内心的解决方法。实际上它真的很简单。 您需要做的只是在开始之前调用
strptime
一次 线程。强>
因此,您似乎可以通过在创建线程之前直接导入_strptime
来解决此问题。
Here's the official bug report,其中包含更多信息。