为什么NLTK的词干可以为识别和标识符识别出不同的词干? 对于身份验证,Snowball和Porter词干均返回identif,但是对于标识符,我得到了identifi。是否还有其他词干包含更多不同形式的单词?
答案 0 :(得分:0)
词干提取器/词干分离器应提供的输出通常是主观的。完成您正在执行的任务。实际上,如果您使用适当的词网词条分解器,它将{identifier
识别为引理,identification
识别为不同的引理,因为它们出现在词网中并且是不同的同义词集。
>>> from nltk.stem import WordNetLemmatizer
>>> from nltk.corpus import wordnet as wn
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('identifier')
'identifier'
>>> wnl.lemmatize('identification')
'identification'
>>> wn.synsets('identification')
[Synset('designation.n.03'), Synset('identification.n.02'), Synset('identification.n.03'), Synset('recognition.n.02'), Synset('identification.n.05')]
>>> wn.synsets('identifier')
[Synset('identifier.n.01')]
要提出的问题是:
您将使用茎/引理做什么?哪个任务?
您是否拥有在执行任务时应遵循的引理的感官/概念清单?
您对词干提取器/词条去除器的预期行为是什么,为什么会这样呢?如果将词干或词根化作为中间任务真的很重要吗?