斯坦福POS-tagger在Python中花费的时间太长了

时间:2017-08-01 11:28:13

标签: python-3.x nltk stanford-nlp

我想对一组文件进行POS标记,确切地说是标题和摘要。我已经将集合存储在MongoDB实例上,我从中访问它们,并使用最新版本的Stanford POS-tagger对它们进行POS标记。问题是,完成时间太长,而我的收藏大约有1240条记录。我已经在网站上搜索了一个答案,我已经在使用tag_sents,希望它能通过降低启动开销来提升性能,但仍需要太长时间。请你帮助我好吗?这是我的测试代码

import nltk
from mongo_connect import *

jar = 'E:\\Anaconda3\\stanford-postagger-2017-06-09\\stanfordpostagger.jar'
     model = 'E:\\Anaconda3\\edu\stanford\\nlp\\models\\pos-tagger\\english-caseless-left3words-distsim.tagger'

st = nltk.StanfordPOSTagger( model, jar, encoding='utf-8')

def entity_tagging():
    #data is the collection in MongoDB
    for dat in data.find():
        tex = st.tag_sents(word_tokenize(word) for word in sent_tokenize(dat['title']))
        print(tex)

提前谢谢

0 个答案:

没有答案