Python标记和lematizing

时间:2017-07-26 17:41:10

标签: python nlp nltk pos-tagger lemmatization

过去几天我一直在阅读标记和词形变换的方法 - 我遇到的一个问题是对词形化阶段的POS标记。

我已成功使用Perceptron tagger设置了POS标记文字,但是当我转向文本时,由于POS标签的明显问题,Wordnet lemmatizer失败了。

我已阅读过使用WordNet标签(如herealso here)重新标记标签的SO变通方法 - 但我不知道这个过程的效率。对于标记然后将整个文档或甚至更大的文本进行文本化,重新标记不会成为减缓整个事件的问题吗?

是否没有与其自己的变形器匹配的WordNet标记器?或者,是否还有其他与其标记符相匹配的词形变换器?

任何建议表示赞赏。

*编辑:感知器标记器pulls from treebank,删除了示例。

0 个答案:

没有答案