应用错误收集

Python NLTK PoS标记不准确

时间：2017-02-03 21:14:01

标签： python machine-learning nltk part-of-speech

我一直试图在NLTK上改进POS标签器几天，但我无法理解。现在，默认标记器确实不准确，并将大多数单词标记为“NN＆＃39;”。如何改进标记器以使其更准确？我已经抬起头来训练标记器，但我无法让它工作。

有人有一个简单的方法吗？非常感谢。

1 个答案:

答案 0 :(得分：1)

您是一次一个词还是大型语料库？通常，POS标记算法使用单词作为标记类型的概率，例如“NN”，但它们也使用周围的句子上下文来预测，因此单词越多，准确度越高。

您还可以尝试使用不同的Unigram，bigram，trigram等标记来尝试以性能为代价获得更高的准确性。你可以在这里阅读：http://www.nltk.org/book/ch05.html