我试图效仿包括机器学习在内的研究。在使用分类的高斯分类器之前,研究人员使用了特征选择和特征减少。
我的问题如下:说我有3节课。我从总共(比如说)10个功能中选择(例如)每个类的前3个最佳功能。所选择的特征例如如下:
Class 1: F1 F2 F9
Class 2: F3 F4 F9
Class 3: F1 F5 F10
由于主成分分析或线性判别分析都适用于所有类具有相同特征的完整数据集或至少数据集,如何在这样的集合上执行特征缩减然后进行训练?
以下是论文的链接:Speaker Dependent Audio Visual Emotion Recognition
以下是该文件的遗漏:
使用Plus l-Take Away选择前40个视觉特征 r算法使用Bhattacharyya距离作为标准函数。 然后将PCA和LDA应用于所选的特征集 最后使用单分量高斯分类器 分类
答案 0 :(得分:2)
在链接的论文中,为所有类开发了一组功能。 Bhattacharyya距离是两个高斯分布如何可分离的有界距离度量。这篇文章似乎没有具体描述如何使用Bhattacharyya距离(类间距离矩阵的平均值?)。但是,一旦您拥有基于Bhattacharyya的指标,您可以通过几种方式选择功能。您可以从一组空的特征开始,逐步向集合中添加特征(基于类与新特征的可分离程度)。或者,您可以从所有功能开始,逐步丢弃提供最小可分离性的功能。 Plus l-Take Away r算法结合了这两种方法。
一旦选择了原始特征的子集,特征缩减步骤通过对原始特征的一些变换来减少维度。正如你所引用的那样,作者同时使用了PCA和LDA。两者之间的重要区别是PCA独立于训练类标签并且为了减少维度,您必须选择保留多少方差。而LDA试图最大化类的可分离性(通过最大化类间和类内协方差的比率),并提供等于比类数少一个的一些特征。
但重要的是,在选择和缩小特征之后,同一组功能将用于所有类。