这个问题可能与哲学有关,而不是编码。 nltk提供了一个标记包,用标记符标记一个句子的每个单词,以及一个将单词转换为基本形式的词干包。我注意到,词干分析器经常无法将一些非常规单词转换为其基本形式。例如,“它是”到“它是”,“知道”到“知道”,“得到”到“得到”,等等。鉴于标签可以正确地将“'s”标记为正确形式的动词(“VBZ”),并识别“知道”(“VBD”)和“知道”(“知道”之间的区别,这有点令人惊讶。 VB“)。既然我们已经知道“知道”是一个过去时的动词,为什么一个词干分析器很难正确地返回它的基本形式呢?似乎最好的提取器是雪球提取器,虽然它的性能并不令人满意。
答案 0 :(得分:2)
我注意到词干分析器经常无法将一些非常规单词转换为基本形式。
词干分析员正在按照它的设计目的去做:“词干通常指的是一个粗略的启发式过程,为了在大多数时候正确地实现这个目标而切断单词的结尾,并且通常包括删除派生词词缀化通常是指通过词汇和词汇的形态分析来正确地处理事物,通常旨在仅删除屈折结尾并返回单词的基础或词典形式,这被称为引理。 (Source)
如果你想要一个语言上合适的基本形式,请改用lemmatizer。