将分类数据转换为数字数据scikit-learn optimization

时间:2015-09-17 21:46:50

标签: python scikit-learn

我有一个带有分类数据的数据集,我使用DictVectorizer将数据转换为数字。

# training data
vect = DictVectorizer(sparse=False)
x =  vect.fit_transform(samples)
# test data
vect.transform(samples)

但是这段代码会在大型数据集中造成内存问题,因为当每个类别由多种类型组成时,它会占用太多内存。

我想要一个解决方案或算法来解决内存成本问题

1 个答案:

答案 0 :(得分:0)

  1. 升级scikit-learn
  2. 将稀疏更改为true

    vect = DictVectorizer(sparse = False)