我有一个包含功能和分类标签的词典列表。我从CSV读取。如何根据scikit的要求将其拆分为numpy数组以进行分类任务 代码到目前为止
from sklearn.feature_extraction import DictVectorizer
rowdicts =[{'feature1': 4, 'feature2':2,'target':"yes","feature3":0},{'feature1': 3, 'feature2': 2,'target':"no","feature3":1}]
vec1 = DictVectorizer(sparse=False)
X = vec1.fit_transform(rowdicts)
对于分类任务,从上面的矢量化程序中删除目标标签有什么好办法?
答案 0 :(得分:1)
您可以确定哪些列表示使用get_feature_names
:
print(vec1.get_feature_names())
输出:
['feature1', 'feature2', 'feature3', 'target=no', 'target=yes']
现在我们知道我们可以放弃target=no
列:
X = numpy.delete(X, 3, axis=1)