使用spaCy NLP的简单Flask应用程序间歇性挂起

时间:2017-12-06 20:31:05

标签: python apache flask mod-wsgi spacy

我正在开发一个简单的Flask应用程序,最终将变成一个简单的REST API,用于在给定的文本字符串上使用spaCy进行命名实体识别。我有一个简单的原型如下:

from flask import Flask, render_template, request, json
import spacy
from spacy import displacy

def to_json(doc):
        return [
                {
                'start': ent.start_char,
                'end': ent.end_char,
                'type': ent.label_,
                'text': str(ent),
                } for ent in doc.ents
                ]

nlp = spacy.load('en')

app = Flask(__name__)

@app.route('/')
def index():
        return render_template('index.html')

@app.route('/demo', methods=['GET', 'POST'])
def demo():
        q = request.values.get('text')
        doc = nlp(q)

        if request.values.get('type') == 'html':
                return displacy.render(doc, style='ent', page=True)
        else:
                return app.response_class(
                                response=json.dumps(to_json(doc), indent=4),
                                status=200,
                                mimetype='text/string'
                                )

if __name__ == '__main__':
     app.run(host='0.0.0.0')

Flask应用程序使用Ubuntu上的Apache Web服务器提供。我使用简单的Web表单向应用程序提交文本,并将结果作为HTML或JSON文本返回。

我遇到的问题是应用程序间歇性地挂起......我无法弄清楚导致它挂起的原因的模式。 Apache错误日志中没有显示任何内容,并且挂起的请求不会出现在Apache访问日志中。如果我在浏览器旋转时终止服务器,浏览器会报告服务器提供空响应。如果我重新启动服务器,错误日志会报告在SIGTERM之后1或2个子进程不会退出,并且必须发送SIGKILL。

一个可能的线索是错误日志在服务器启动时报告以下内容:

[Wed Dec 06 20:19:33.753041 2017] [wsgi:warn] [pid 1822:tid 140029812619136] mod_wsgi: Compiled for Python/2.7.11.
[Wed Dec 06 20:19:33.753055 2017] [wsgi:warn] [pid 1822:tid 140029812619136] mod_wsgi: Runtime using Python/2.7.12.

另一个可能的线索是“索引”路径(/)似乎永远不会挂起。但是“/ demo”路由可以挂起request.values.get('type') == 'html' if语句的两个分支。

修改 我已经将Apache和mod_wsgi从循环中取出,现在正在使用独立的Flask服务器运行应用程序。应用程序偶尔会挂起......当它发生时,我可以按下control-c并且它会一直返回以下代码作为最新代码:

Exception happened during processing of request from ('xxx.xxx.xxx.xxx', 55608)
Traceback (most recent call last):
  File "/usr/lib/python2.7/SocketServer.py", line 290, in _handle_request_noblock
    self.process_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", line 318, in process_request
    self.finish_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", line 331, in finish_request
    self.RequestHandlerClass(request, client_address, self)
  File "/usr/lib/python2.7/SocketServer.py", line 652, in __init__
    self.handle()
  File "/usr/local/lib/python2.7/dist-packages/werkzeug/serving.py", line 232, in handle
    rv = BaseHTTPRequestHandler.handle(self)
  File "/usr/lib/python2.7/BaseHTTPServer.py", line 340, in handle
    self.handle_one_request()
  File "/usr/local/lib/python2.7/dist-packages/werkzeug/serving.py", line 263, in handle_one_request
    self.raw_requestline = self.rfile.readline()
  File "/usr/lib/python2.7/socket.py", line 451, in readline
    data = self._sock.recv(self._rbufsize)
KeyboardInterrupt
----------------------------------------

按下control-c后,Flask获得“释放”,然后返回我期望的结果。服务器正常继续,并将接受更多请求,直到它再次挂起。如果我等待足够长的时间,有时挂起的请求会自动回来。

这似乎越来越像是Flask的一个问题(或者我是如何使用它的)。如果有人可以就如何追查问题提供建议,我将不胜感激!

3 个答案:

答案 0 :(得分:1)

这似乎是Spacy v2.0中的一个已知问题。在我降级为Spacy v1.9之后,问题就消失了。

有关详细信息,请参阅:

https://github.com/explosion/spaCy/issues/1571

https://github.com/explosion/spaCy/issues/1572

答案 1 :(得分:0)

尝试强制主Python解释器上下文的用户,如下所述:

Python中的某些第三方C扩展模块在子解释器中无法正常工作,并且可能会挂起或崩溃该进程。

答案 2 :(得分:0)

在Django中也遇到了同样的问题,降级到1.10.0解决了该问题