压缩稀疏词袋的技术

时间:2019-06-13 18:28:43

标签: python machine-learning countvectorizer

我创建了一个词袋模型来进行文本分类。我这样做如下。

matrix = CountVectorizer(max_features=1000, ngram_range=(1, 2))
X_train = matrix.fit_transform(X_train).toarray()
X_test = matrix.transform(X_test).toarray()

所以,我的特征空间非常稀疏。有什么技巧可以使我的特征空间更加紧凑?

我的想法是使每个训练向量成为非零索引的列表。也就是说,将[0, 0, 1, 0, 1, 1, 0, 0, 0, 0]转换为[2, 4, 5]。问题在于,并非所有训练向量的长度都相同。

0 个答案:

没有答案