Question

我有一个包含功能和分类标签的词典列表。我从CSV读取。如何根据scikit的要求将其拆分为numpy数组以进行分类任务代码到目前为止

from sklearn.feature_extraction import DictVectorizer
          rowdicts =[{'feature1': 4, 'feature2':2,'target':"yes","feature3":0},{'feature1': 3, 'feature2': 2,'target':"no","feature3":1}]


    vec1 = DictVectorizer(sparse=False)
    X = vec1.fit_transform(rowdicts)

对于分类任务，从上面的矢量化程序中删除目标标签有什么好办法？

Answer 1

您可以确定哪些列表示使用get_feature_names：

的内容

print(vec1.get_feature_names())

输出：

['feature1', 'feature2', 'feature3', 'target=no', 'target=yes']

现在我们知道我们可以放弃target=no列：

X = numpy.delete(X, 3, axis=1)

将字典列表更改为scikit中的特征向量和目标

1 个答案: