如果我想制作像NLTK这样的NLP工具包,我将在标记化和规范化之后首先实现哪些功能。 POS标记还是Lemmatisation?
答案 0 :(得分:2)
词性对于词素化起作用很重要,因为词汇具有不同的含义,取决于词性。使用此信息,词形还原将返回基本形式或引理。因此,如果首先完成POS标记实现会更好。
lemmatisation背后的主要思想是将一个单词的不同变形形式组合成一个。例如, go,going,gone 和 将成为一个 - go 。但要得出这一点,lemmatisation必须知道单词的上下文 - 无论单词是名词还是动词等。
因此,lemmatisation函数可以将单词和词性作为输入,并在处理完信息后返回引理。
答案 1 :(得分:2)
确保首先制作POS Tagger。如果你首先进行lemmatisation,你可能会在使用POS Tagger时失去最佳的单词分类,特别是在歧义常见的语言中,就像葡萄牙语一样。