Question

我试图检索多个目录中的文档并对其进行分类。 NLTK book显示了在movie_reviews语料库中对两个文件夹中的文件进行分类的示例，＆＃39; pos＆＃39;和＆＃39; neg＆＃39;：

from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
              for category in movie_reviews.categories()
              for fileid in movie_reviews.fileids(category)]

我试图对同一目录中的几个文件夹做类似的事情：

reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
              for category in reviews.categories()
              for fileid in reviews.fileids(category)]

但我在Attribute Error: 'str' object has no attribute 'categories'获得for category in reviews.categories()。

此方法是否专用于nltk语料库中的文件？还有其他选择吗？

Answer 1

问题在于混淆movie_reviews和reviews

movie_review是从nltk.corpus导入定义的，其方法为words。

reviews是您为其指定字符串的变量。并且字符串没有方法words，正如错误消息告诉你的那样。

对文档列表进行分类

1 个答案: