Python Scikit-learn CountVectorizer抛出ValueError:空词汇

时间:2015-03-04 19:12:40

标签: python-2.7 scikit-learn vectorization feature-extraction text-analysis

我正在尝试从文本文档中提取功能。这是我的代码:

import sklearn
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import CountVectorizer
files = sklearn.datasets.load_files('/home/niyas/Documents/project/container', shuffle = False)
vectorizer = CountVectorizer(min_df=1)
X = vectorizer.fit_transform(files.data[1])
Y=vectorizer.get_feature_names()

我收到错误“ValueError:空词汇;也许文档只包含停用词”。当我传递一个字符串与文本doc完全相同的内容时,代码工作正常。

帮帮我。提前谢谢。

0 个答案:

没有答案