建议用于2类分类的无监督特征选择/提取方法?

时间:2016-01-23 23:57:22

标签: classification feature-extraction feature-selection

我有一组F功能,例如实验室色彩空间,熵。通过将所有特征连接在一起,我获得了一个维度为d的特征向量(在12到50之间,具体取决于所选的特征。

我通常会得到1000到5000个新样本,表示为x。然后用矢量训练高斯混合模型,但我不知道特征来自哪个类。但我所知道的是,只有两个班级。基于GMM预测,我得到该特征向量属于1级或2级的概率。

我现在的问题是:如何获得最佳的特征子集,例如只有熵和规范化的rgb,才能获得最佳的分类精度?如果由于特征子集选择而增加了类可分性,我想这是实现的。

也许我可以利用费雪的线性判别分析?因为我已经从GMM获得了均值和协方差矩阵。但是,我不能计算每个特征组合的分数吗?

如果这是一种不值得的方法并且我在错误的轨道和/或任何其他建议上,那么获得一些帮助会很高兴吗?

1 个答案:

答案 0 :(得分:0)

找到“信息性”功能的一种方法是使用最大化对数可能性的功能。您可以通过交叉验证来完成此操作。

https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf

另一个想法可能是使用另一种无监督算法自动选择聚类林等功能

http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

在这种情况下,聚类算法将根据信息增益自动拆分数据。

Fisher LDA不会选择要素,而是将原始数据投影到较低维度的子空间中。如果您正在研究子空间方法 另一种有趣的方法可能是光谱聚类,这种情况也会发生 在子空间或无监督的神经网络中,如自动编码器。

希望有所帮助