Question

我想对一组文件进行POS标记，确切地说是标题和摘要。我已经将集合存储在MongoDB实例上，我从中访问它们，并使用最新版本的Stanford POS-tagger对它们进行POS标记。问题是，完成时间太长，而我的收藏大约有1240条记录。我已经在网站上搜索了一个答案，我已经在使用tag_sents，希望它能通过降低启动开销来提升性能，但仍需要太长时间。请你帮助我好吗？这是我的测试代码

import nltk
from mongo_connect import *

jar = 'E:\\Anaconda3\\stanford-postagger-2017-06-09\\stanfordpostagger.jar'
     model = 'E:\\Anaconda3\\edu\stanford\\nlp\\models\\pos-tagger\\english-caseless-left3words-distsim.tagger'

st = nltk.StanfordPOSTagger( model, jar, encoding='utf-8')

def entity_tagging():
    #data is the collection in MongoDB
    for dat in data.find():
        tex = st.tag_sents(word_tokenize(word) for word in sent_tokenize(dat['title']))
        print(tex)

提前谢谢

斯坦福POS-tagger在Python中花费的时间太长了

0 个答案: