WordNetLemmatizer不会在文本数据中进行词形化

时间:2019-10-29 06:32:42

标签: nltk python-3.7 lemmatization

我正在预处理文本数据。当我进行词法限制时,它的词干效果与词干完全相同(文本不变)。我不明白这是什么问题。

def stem_list(row):
    my_list = row['no_stopwords']
    stemmed_list = [stemming.stem(word) for word in my_list]
    return stemmed_list


Japan['stemmed_words'] = Japan.apply(stem_list, axis=1)


def lemma_list(row):
    my_list = row['stemmed_words']
    lemmas_list = [lemma.lemmatize(word) for word in my_list]
    return lemmas_list


Japan['lemma_words'] = Japan.apply(lemma_list, axis=1)

下面是示例输出:

  

安全华为参与英国评论家网络suffici mitig长期hcsec   形成mitig perceiv风险aris参与华为评论家国家基础设施   政府委员会包括英国office英国政府网络安全委员会   华为高级执行代表英国电信

我的文字是新闻报道。 我正在使用PorterStemmer进行词根提取,并使用WordNetLemmatizer进行词法提取。

先谢谢您

1 个答案:

答案 0 :(得分:0)

您的文本在去词素化过程中可能不会改变的原因是,词干通常不是真正具有词根的真词。

这两个过程都试图将单词缩短到其词根,但是严格来说词干是严格的,算法和词法化使用词汇表来找到单词的最小词根。通常,您会根据所需的速度使用一种或多种。

但是,如果您只想看两个序列的结果,请逆向进行,您应该得到与输入到词干分析器中的引理不同的词干。