python:在nltk中修改PerceptronTagger以识别'和/或'

时间:2016-06-03 20:04:12

标签: python nltk pos-tagger perceptron

如何修改PerceptronTagger模块中的nltk(或者可能为其添加一些临时功能),以便将'和/或'识别为'CC'标记?

1 个答案:

答案 0 :(得分:0)

如果这是您唯一想要更改的内容,最简单的解决方案就是对标记文本进行后期处理:

for sentence in tagged_sentences:
    for n, (word,tag) in enumerate(sentence):
        if word == 'and/or':
            sentence[n] = (word, "CC")

但如果您的问题是“改进”NLTK标记器的第一步,那么您应该从长远来看并考虑如何构建或安装更好的标记器。请查看this answer中包含的许多链接。