如何使词干相似地识别身份和标识符?

时间:2018-06-19 15:52:06

标签: nlp nltk

为什么NLTK的词干可以为识别和标识符识别出不同的词干? 对于身份验证,Snowball和Porter词干均返回identif,但是对于标识符,我得到了identifi。是否还有其他词干包含更多不同形式的单词?

1 个答案:

答案 0 :(得分:0)

词干提取器/词干分离器应提供的输出通常是主观的。完成您正在执行的任务。实际上,如果您使用适当的词网词条分解器,它将{identifier识别为引理,identification识别为不同的引理,因为它们出现在词网中并且是不同的同义词集。

>>> from nltk.stem import WordNetLemmatizer
>>> from nltk.corpus import wordnet as wn

>>> wnl = WordNetLemmatizer()


>>> wnl.lemmatize('identifier')
'identifier'
>>> wnl.lemmatize('identification')
'identification'

>>> wn.synsets('identification')
[Synset('designation.n.03'), Synset('identification.n.02'), Synset('identification.n.03'), Synset('recognition.n.02'), Synset('identification.n.05')]

>>> wn.synsets('identifier')
[Synset('identifier.n.01')]

要提出的问题是:

  • 您将使用茎/引理做什么?哪个任务?

  • 您是否拥有在执行任务时应遵循的引理的感官/概念清单?

  • 您对词干提取器/词条去除器的预期行为是什么,为什么会这样呢?如果将词干或词根化作为中间任务真的很重要吗?