首先是实施顺序:POS标记还是Lemmatisation?

时间:2017-03-16 13:44:56

标签: python nlp nltk pos-tagger lemmatization

如果我想制作像NLTK这样的NLP工具包,我将在标记化和规范化之后首先实现哪些功能。 POS标记还是Lemmatisation?

2 个答案:

答案 0 :(得分:2)

词性对于词素化起作用很重要,因为词汇具有不同的含义,取决于词性。使用此信息,词形还原将返回基本形式或引理。因此,如果首先完成POS标记实现会更好。

lemmatisation背后的主要思想是将一个单词的不同变形形式组合成一个。例如, go,going,gone 将成为一个 - go 。但要得出这一点,lemmatisation必须知道单词的上下文 - 无论单词是名词还是动词等。

因此,lemmatisation函数可以将单词和词性作为输入,并在处理完信息后返回引理。

答案 1 :(得分:2)

确保首先制作POS Tagger。如果你首先进行lemmatisation,你可能会在使用POS Tagger时失去最佳的单词分类,特别是在歧义常见的语言中,就像葡萄牙语一样。