对文档列表进行分类

时间:2014-04-28 00:30:40

标签: python python-2.7 classification nltk corpus

我试图检索多个目录中的文档并对其进行分类。 NLTK book显示了在movie_reviews语料库中对两个文件夹中的文件进行分类的示例,' pos'和' neg':

from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
              for category in movie_reviews.categories()
              for fileid in movie_reviews.fileids(category)]

我试图对同一目录中的几个文件夹做类似的事情:

reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
              for category in reviews.categories()
              for fileid in reviews.fileids(category)]

但我在Attribute Error: 'str' object has no attribute 'categories'获得for category in reviews.categories()

此方法是否专用于nltk语料库中的文件?还有其他选择吗?

1 个答案:

答案 0 :(得分:0)

问题在于混淆movie_reviewsreviews

movie_review是从nltk.corpus导入定义的,其方法为words

reviews是您为其指定字符串的变量。并且字符串没有方法words,正如错误消息告诉你的那样。