Scikit-Learn的管道:传递了稀疏矩阵,但需要密集数据

时间:2015-02-07 16:43:18

标签: python numpy pandas scikit-learn

我发现很难理解如何修复我创建的管道(阅读:主要是从教程中粘贴)。它的python 3.4.2:

df = pd.DataFrame
df = DataFrame.from_records(train)

test = [blah1, blah2, blah3]

pipeline = Pipeline([('vectorizer', CountVectorizer()), ('classifier', RandomForestClassifier())])

pipeline.fit(numpy.asarray(df[0]), numpy.asarray(df[1]))
predicted = pipeline.predict(test)

当我运行它时,我得到:

TypeError: A sparse matrix was passed, but dense data is required. Use X.toarray() to convert to a dense numpy array.

这是针对行pipeline.fit(numpy.asarray(df[0]), numpy.asarray(df[1]))

我通过numpy,scipy等解决了很多解决方案,但我仍然不知道如何修复它。是的,之前出现过类似的问题,但不是在管道内。 我必须在哪里申请toarraytodense

5 个答案:

答案 0 :(得分:42)

不幸的是,这两者是不相容的。 CountVectorizer生成稀疏矩阵,RandomForestClassifier需要密集矩阵。可以使用X.todense()进行转换。这样做会大大增加你的内存占用。

以下是基于http://zacstewart.com/2014/08/05/pipelines-of-featureunions-of-pipelines.html执行此操作的示例代码,您可以在管道阶段调用.todense()

class DenseTransformer(TransformerMixin):

    def fit(self, X, y=None, **fit_params):
        return self

    def transform(self, X, y=None, **fit_params):
        return X.todense()

获得DenseTransformer后,您就可以将其添加为管道步骤。

pipeline = Pipeline([
     ('vectorizer', CountVectorizer()), 
     ('to_dense', DenseTransformer()), 
     ('classifier', RandomForestClassifier())
])

另一种选择是使用适用于稀疏数据的分类器,如LinearSVC

from sklearn.svm import LinearSVC
pipeline = Pipeline([('vectorizer', CountVectorizer()), ('classifier', LinearSVC())])

答案 1 :(得分:16)

0.16-dev中的随机森林现在接受稀疏数据。

答案 2 :(得分:15)

最简洁的解决方案是使用FunctionTransformer转换为密集:这将自动实现大卫的答案中的fittransformfit_transform方法。另外,如果我的管道步骤不需要特殊名称,我喜欢使用sklearn.pipeline.make_pipeline便利功能来启用更简约的语言来描述模型:

from sklearn.preprocessing import FunctionTransformer

pipeline = make_pipeline(
     CountVectorizer(), 
     FunctionTransformer(lambda x: x.todense(), accept_sparse=True), 
     RandomForestClassifier()
)

答案 3 :(得分:3)

您可以使用Series方法将pandas .values更改为数组。

pipeline.fit(df[0].values, df[1].values)

但是我认为这里出现的问题是因为CountVectorizer()默认返回稀疏矩阵,并且不能通过管道传递到RF分类器。 CountVectorizer()确实有一个dtype参数来指定返回的数组类型。也就是说通常你需要做一些降维以使用随机森林进行文本分类,因为词袋特征向量很长

答案 4 :(得分:-1)

通过此管道添加TfidTransformer plus

        pipelinex = Pipeline([('bow',vectorizer),
                           ('tfidf',TfidfTransformer()),
                           ('to_dense', DenseTransformer()), 
                           ('classifier',classifier)])