我正在尝试使用nltk.stopwords从Python中删除文本中的停用词。
我使用了以下代码
[w for w in imdb['Comment'] if w not in stopwords.words('english')]
但是,我收到了以下错误,并且没有删除停用词。
C:\Users\XYZ\Anaconda2\lib\site-packages\ipykernel\__main__.py:1: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
然后它说
if __name__ == '__main__':
并在不删除停用词的情况下返回文本。
我正在使用的数据库是包含评级和评论的IMDB数据库。我输入文件如下。
imdb = pd.read_csv(" C:\ Users \ XYZ \ Text Analytics \ imdb.csv")
输入文件时是否需要进行编码?可能是什么问题?欢迎任何帮助。
由于 宁