从文本文件列表中删除停用词

时间:2017-02-04 15:34:34

标签: python nltk

我有一个已处理的文本文件列表,看起来有点像这样:

text ="这是第一个文本文档"这是第二个文本文件"这是第三个文件"

我能够成功地将句子标记为:

sentences = sent_tokenize(text)
    for ii, sentence in enumerate(sentences):
        sentences[ii] = remove_punctuation(sentence)
sentence_tokens = [word_tokenize(sentence) for sentence in sentences]

现在我想从这个令牌列表中删除停用词。
但是,因为它是一个文本列表中的句子列表,我似乎无法弄清楚如何这样做。

这是我到目前为止所尝试过的,但它没有返回结果:

sentence_tokens_no_stopwords = [w for w in sentence_tokens if w not in stopwords]

我假设实现这一目标需要某种for循环,但我现在所做的并不工作。任何帮助将不胜感激!

1 个答案:

答案 0 :(得分:2)

您可以创建两个列表生成器:

sentence_tokens_no_stopwords = [[w for w in s if w not in stopwords] for s in sentence_tokens ]