我试图检索多个目录中的文档并对其进行分类。 NLTK book显示了在movie_reviews语料库中对两个文件夹中的文件进行分类的示例,' pos'和' neg':
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
for category in movie_reviews.categories()
for fileid in movie_reviews.fileids(category)]
我试图对同一目录中的几个文件夹做类似的事情:
reviews= "C:\Users\Alpine\Documents\Reviews" #Folders: Good, Bad
documents = [(list(reviews.words(fileid)), category)
for category in reviews.categories()
for fileid in reviews.fileids(category)]
但我在Attribute Error: 'str' object has no attribute 'categories'
获得for category in reviews.categories()
。
此方法是否专用于nltk语料库中的文件?还有其他选择吗?
答案 0 :(得分:0)
问题在于混淆movie_reviews
和reviews
movie_review
是从nltk.corpus
导入定义的,其方法为words
。
reviews
是您为其指定字符串的变量。并且字符串没有方法words
,正如错误消息告诉你的那样。