过去几天我一直在阅读标记和词形变换的方法 - 我遇到的一个问题是对词形化阶段的POS标记。
我已成功使用Perceptron tagger设置了POS标记文字,但是当我转向文本时,由于POS标签的明显问题,Wordnet lemmatizer失败了。
我已阅读过使用WordNet标签(如here和also here)重新标记标签的SO变通方法 - 但我不知道这个过程的效率。对于标记然后将整个文档或甚至更大的文本进行文本化,重新标记不会成为减缓整个事件的问题吗?
是否没有与其自己的变形器匹配的WordNet标记器?或者,是否还有其他与其标记符相匹配的词形变换器?
任何建议表示赞赏。
*编辑:感知器标记器pulls from treebank,删除了示例。