在scikit dict矢量化器中按功能名称提取特征

时间:2016-02-16 09:20:09

标签: python numpy scipy scikit-learn

我有一个字典列表,我使用DictVectorizer中的scikit-learn转换为矢量表示

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer()
dictvector = D = [{'foo': 'city1', 'bar': 2, 'label':'c1'}, {'foo': 'city2', 'baz': 1, 'label':'c2'}]
dictVector = vec.fit_transform(dictList)

现在,我想从每一行中提取特征'label'的所有元组的值,然后从向量中删除它们。这将有助于将向量用作scikit中决策树分类器的输入,并将相应的标签用作分类器的基本事实。

但是当我尝试将功能名称作为字典键调用时。我被要求只使用整数而不是字符串。如何解决?

1 个答案:

答案 0 :(得分:4)

DictVectorizer的功能映射到numpy数组,表示功能为NxM数字矩阵(字典丢失)。但是,类DictVectorizer会在内部保留映射函数,您可以使用.inverse_transform来恢复它。来自DictVectorizer的文档:

from sklearn.feature_extraction import DictVectorizer
>>> v = DictVectorizer(sparse=False)
>>> D = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 1}]
>>> X = v.fit_transform(D)
>>> X
array([[ 2.,  0.,  1.],
       [ 0.,  1.,  3.]])
>>> v.inverse_transform(X) == [{'bar': 2.0, 'foo': 1.0}, {'baz': 1.0, 'foo': 3.0}]
True

因此,对于属于x_i的单个实例X(行),您可以将映射恢复为:

>>> v.inverse_transform(X[i][None, :])

最后一位[None, :]转换M行向量中的X[i]长度行1xM。并非完全需要,但是scikits-learn会发出警告。以下内容也应该有效:

>>> v.inverse_transform(X[i])

现在,回答这个问题,要从数据X中删除给定的功能,DictVectorizer还会存储与feature_names_中每个功能相对应的名称。

>>> v.feature_names_
['bar', 'baz', 'foo']

因此,您可以执行以下操作:

>>> column = v.feature_names_.index('foo') # Column mapping index of key 'foo'
>>> values = X[:, column] # get values
>>> X[:, column] = 0 # remove them from X

最后,使用DictVectorizer(sparse=True)将答案扩展到稀疏矩阵,其中X现在是NxM稀疏矩阵而不是numpy数组。上述解决方案只需稍作修改(在值提取中注意.todense()):

>>> column = v.feature_names_.index('foo')
>>> values = X[:, column].todense() # get values
>>> X[:, column] = 0 # remove them from X

在上面的代码中将'foo'替换为'label',以使其适合您。