我一直试图在NLTK上改进POS标签器几天,但我无法理解。现在,默认标记器确实不准确,并将大多数单词标记为“NN'”。如何改进标记器以使其更准确?我已经抬起头来训练标记器,但我无法让它工作。
有人有一个简单的方法吗?非常感谢。
答案 0 :(得分:1)
您是一次一个词还是大型语料库?通常,POS标记算法使用单词作为标记类型的概率,例如“NN”,但它们也使用周围的句子上下文来预测,因此单词越多,准确度越高。
您还可以尝试使用不同的Unigram,bigram,trigram等标记来尝试以性能为代价获得更高的准确性。你可以在这里阅读:http://www.nltk.org/book/ch05.html