我正在使用NLTK和Flask构建Web应用程序。它只是一个简单的RESTful应用程序我在heroku上部署了一切顺利。但是,当服务器开始获得更多请求时,我从heroku达到了1.5GB的内存限制。所以,我猜这是因为我每次请求时都会加载nltk.RegexpParser
。
这是非常简单的代码。
@app.route('/get_keywords', methods=['POST'])
def get_keywords():
data_json = json.loads(request.data)
text = urllib.unquote(data_json["sentence"])
keywords = KeywordExtraction().extract(text)
return ','.join(keywords)
这是关键字提取位。
import re
import nltk
nltk.data.path.append('./nltk_data/')
from nltk.corpus import stopwords
class KeywordExtraction:
def extract(self, text):
sentences = nltk.sent_tokenize(text)
sentences = [nltk.word_tokenize(sent) for sent in sentences]
sentences = [nltk.pos_tag(sent) for sent in sentences]
grammar = "NP: {}"
cp = nltk.RegexpParser(grammar)
tree = cp.parse(sentences[0])
keywords = [subtree.leaves()[0][0] for subtree in tree.subtrees(filter=lambda t: t.node == 'NP')]
keywords_without_stopwords = [w for w in keywords if not w in stopwords.words('english')]
return list(set(keywords_without_stopwords + tags))
我不确定我的代码或Flask或NLTK是否存在问题。我是Python的新手。任何建议都会非常感激。
我通过blitz.io对此进行了测试,仅在250次请求后服务器爆炸并开始抛出R15。
答案 0 :(得分:1)
从缓存开始:
# Move these outside of the class declaration or make them class variables
stopwords = set(stopwords.words('english'))
grammar = "NP: {}"
cp = nltk.RegexpParser(grammar)
这也可以加快一点:
from itertools import ifilterfalse
...
keywords_without_stopwords = ifilterfalse(stopwords.__contains__, keywords)
return list(keywords_without_stopwords + set(tags)) # Can you cache `set(tags`)?
我还要看一下Flask-Cache,以便尽可能地记忆和缓存函数和视图。