搬运工干货炒

时间:2014-12-26 15:57:14

标签: nlp nltk stemming porter-stemmer

为什么搬运工在

网上拦截算法

http://text-processing.com/demo/stem/

friedfri而不是fry

我无法回想起任何以英语ied过去时为结尾的单词,这些单词的主格形式以i结尾。

这是一个错误吗?

2 个答案:

答案 0 :(得分:4)

由Porter Stemmer返回的词干不一定是动词的基本形式,或者根本不是有效词。如果你正在寻找它,你需要寻找一个变形器。

答案 1 :(得分:2)

首先,词干分析器不是一个词形变换器,另见Stemmers vs Lemmatizers

>>> from nltk.stem import PorterStemmer, WordNetLemmatizer
>>> porter = PorterStemmer()
>>> wnl = WordNetLemmatizer()
>>> fried = 'fried'
>>> porter.stem(fried)
u'fri'
>>> wnl.lemmatize(fried)
'fried'

接下来,一个词形变换器对词性(POS)敏感:

>>> wnl.lemmatize(fried, pos='v')
u'fry'