如何监控“卡住”的Python脚本?

时间:2010-11-04 01:33:19

标签: python sockets scripting urllib2 freebase

我有一个数据密集型的 Python 脚本,该脚本使用HTTP连接来下载数据。我通常一夜之间运行它。有时连接会失败,或者网站暂时无法使用。我有基本的错误处理,捕获这些异常并定期再次尝试,在重试5分钟后正常退出(并记录错误)。

然而,我注意到有时这项工作只是冻结了。不会抛出任何错误,并且作业仍在运行,有时在最后一条打印消息后几小时。

最好的方法是:

  • 监控 Python脚本,
  • 检测,如果在给定的时间间隔后没有响应,
  • 退出,如果它没有响应,
  • 开始另一个?

更新

谢谢大家的帮助。正如你们中的一些人所指出的那样, urllib 套接字模块没有正确设置超时。我正在使用 Python 2.5 Freebase urllib2 模块,以及捕获和处理 MetawebErrors urllib2 .URLErrors 即可。以下是最后一个脚本挂起12小时后的错误输出示例:

  File "/home/matthew/dev/projects/myapp_module/project/app/myapp/contrib/freebase/api/session.py", line 369, in _httpreq_json
    resp, body = self._httpreq(*args, **kws)
  File "/home/matthew/dev/projects/myapp_module/project/app/myapp/contrib/freebase/api/session.py", line 355, in _httpreq
    return self._http_request(url, method, body, headers)
  File "/home/matthew/dev/projects/myapp_module/project/app/myapp/contrib/freebase/api/httpclients.py", line 33, in __call__
    resp = self.opener.open(req)
  File "/usr/lib/python2.5/urllib2.py", line 381, in open
    response = self._open(req, data)
  File "/usr/lib/python2.5/urllib2.py", line 399, in _open
    '_open', req)
  File "/usr/lib/python2.5/urllib2.py", line 360, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.5/urllib2.py", line 1107, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib/python2.5/urllib2.py", line 1080, in do_open
    r = h.getresponse()
  File "/usr/lib/python2.5/httplib.py", line 928, in getresponse
    response.begin()
  File "/usr/lib/python2.5/httplib.py", line 385, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python2.5/httplib.py", line 343, in _read_status
    line = self.fp.readline()
  File "/usr/lib/python2.5/socket.py", line 372, in readline
    data = recv(1)
KeyboardInterrupt

你会注意到底部的套接字错误。由于我使用 Python 2.5 并且无法访问第三个 urllib2.urlopen 选项,是否有另一种方法可以监视并捕获此错误?例如,我正在捕捉 URLErrrors - urllib2 套接字中是否存在其他类型的错误,我可以捕获哪些会对我有帮助?

4 个答案:

答案 0 :(得分:6)

听起来你的脚本中有一个错误。答案不是监控错误,而是追捕错误并修复它。

我们无法帮助您在没有看到某些代码的情况下找到错误。但作为一般概念,您可能希望使用日志记录来查明问题发生的位置,并编写unit tests以帮助您建立关于代码的哪些部分没有错误的信心。

另一个想法是使用Ctrl-C打破“卡住”程序并研究回溯消息。它将显示您的程序上次执行的行。 这可能会让你知道脚本出错的地方。

答案 1 :(得分:4)

由于程序正在进行Web通信,我会启动一个像Charles http://www.charlesproxy.com/这样的调试代理,看看你的脚本和服务器之间是否有任何怪异的事情发生。

还要考虑套接字模块默认没有设置超时,因此可以挂起。但是,从python 2.6开始,您可以将第三个参数传递给urllib2.urlopen(如果您使用的是urllib2),指定请求超时时间(以秒为单位)。这样一来,脚本就会出错而不是从一个可能不合作的服务器的响应中等待紧急情况等待。如果你还没有,我会在尝试更复杂的事情之前检查这些事情。

更新python 2.5: 要在python中执行此操作< 2.6,你必须直接在套接字模块中设置超时值,urllib2使用它。我没有试过这个,但它可能有用。在http://www.voidspace.org.uk/python/articles/urllib2.shtml找到此信息:

import socket
import urllib2

# timeout in seconds
timeout = 10
socket.setdefaulttimeout(timeout)

# this call to urllib2.urlopen now uses the default timeout
# we have set in the socket module
req = urllib2.Request('http://www.voidspace.org.uk')
response = urllib2.urlopen(req)

答案 2 :(得分:1)

一种简单的方法就是利用当前程序发送的UDP数据包到另一个监视输出的收获程序。如果它在一定时间内没有收到数据包,它将杀死另一个python进程然后重启另一个进程

答案 3 :(得分:1)

您可以在pdb中运行脚本,并在怀疑它被冻结时闯入。它本身不会起作用,但可能会帮助你找出它冻结的原因。