使用sklearn或gensim监督维度redunction / topic模型

时间:2015-07-28 21:17:27

标签: python machine-learning gensim dimensionality-reduction

我有BOW向量,我想知道在sklearn或gensim中是否有监督降维算法能够获取高维,监督数据并将其投影到较低维空间中保留这些类之间的差异。

实际上,我正在尝试为分类/回归找到合适的指标,我相信使用维度可以帮助我。我知道那里有无监督的方法,但我想保留标签信息。

2 个答案:

答案 0 :(得分:0)

FastText - 来自Facebook研究的实施,基本上可以帮助您实现您的要求。既然你在询问gensim,我猜你可能会注意到gensim中的word2vec。

现在,word2vec是在Google上提出的Mikolov。 Mikolov和他在Facebook的团队提出了fastText,它考虑了单词和子词信息。它还允许对文本进行分类。

答案 1 :(得分:-1)

您只能以无人监督的方式执行维度降低或监督,但标签不同于目标标签。

例如,您可以使用包含100个主题的数据集来训练逻辑回归分类器。使用您的训练数据输出此分类器(100个值)可能是您的降维特征集。