使用列表中的nltk.corpus删除停用词

时间:2017-03-31 09:25:39

标签: nltk stop-words

我有一个列表,其中包含评论的所有单独单词的列表,如下所示:

texts = [['fine','for','a','night'],['it','was','good']]

我想删除所有停用词,使用nltk.corpus包,并将所有没有停用词的单词放回列表中。最终结果应该是一个列表,由没有停用词的单词列表组成。这是我试过的:

import nltk
nltk.download() # to download stopwords corpus
from nltk.corpus import stopwords
stopwords=stopwords.words('english')
words_reviews=[]

for review in texts:
    wr=[]
    for word in review:
        if word not in stopwords:
            wr.append(word)
        words_reviews.append(wr)

此代码实际上有效,但现在我收到错误:AttributeError:'list'对象没有属性'words',指的是停用词。我确保安装了所有包。可能是什么问题?

2 个答案:

答案 0 :(得分:3)

问题是您在代码中重新定义了stopwords

from nltk.corpus import stopwords
stopwords=stopwords.words('english')

在第一行之后,stopwords是一个使用words()方法的语料库阅读器。在第二行之后,它是一个列表。继续相应。

实际上在列表中查找内容非常慢,因此如果您使用它,您将获得更好的性能:

stopwords = set(stopwords.words('english'))

答案 1 :(得分:0)

代替

[word for word in text_tokens if not word in stopwords.words()]

使用

[word for word in text_tokens if not word in all_stopwords]

After stopwords.word('english') the type of the file changes and therefore none of the previous attributes will work