在Python中删除停用词文本时出错

时间:2017-03-10 04:57:30

标签: python unicode nltk stop-words

我正在尝试使用nltk.stopwords从Python中删除文本中的停用词。

我使用了以下代码

[w for w in imdb['Comment'] if w not in stopwords.words('english')]

但是,我收到了以下错误,并且没有删除停用词。

C:\Users\XYZ\Anaconda2\lib\site-packages\ipykernel\__main__.py:1:     UnicodeWarning: Unicode equal comparison failed to convert both arguments to     Unicode - interpreting them as being unequal 

然后它说

if __name__ == '__main__':

并在不删除停用词的情况下返回文本。

我正在使用的数据库是包含评级和评论的IMDB数据库。我输入文件如下。

imdb = pd.read_csv(" C:\ Users \ XYZ \ Text Analytics \ imdb.csv")

输入文件时是否需要进行编码?可能是什么问题?欢迎任何帮助。

由于 宁

0 个答案:

没有答案