我有一个带有分类数据的数据集,我使用DictVectorizer将数据转换为数字。
# training data
vect = DictVectorizer(sparse=False)
x = vect.fit_transform(samples)
# test data
vect.transform(samples)
但是这段代码会在大型数据集中造成内存问题,因为当每个类别由多种类型组成时,它会占用太多内存。
我想要一个解决方案或算法来解决内存成本问题
答案 0 :(得分:0)
将稀疏更改为true
vect = DictVectorizer(sparse = False)