我想对一组文件进行POS标记,确切地说是标题和摘要。我已经将集合存储在MongoDB实例上,我从中访问它们,并使用最新版本的Stanford POS-tagger对它们进行POS标记。问题是,完成时间太长,而我的收藏大约有1240条记录。我已经在网站上搜索了一个答案,我已经在使用tag_sents,希望它能通过降低启动开销来提升性能,但仍需要太长时间。请你帮助我好吗?这是我的测试代码
import nltk
from mongo_connect import *
jar = 'E:\\Anaconda3\\stanford-postagger-2017-06-09\\stanfordpostagger.jar'
model = 'E:\\Anaconda3\\edu\stanford\\nlp\\models\\pos-tagger\\english-caseless-left3words-distsim.tagger'
st = nltk.StanfordPOSTagger( model, jar, encoding='utf-8')
def entity_tagging():
#data is the collection in MongoDB
for dat in data.find():
tex = st.tag_sents(word_tokenize(word) for word in sent_tokenize(dat['title']))
print(tex)
提前谢谢