我对使用逻辑回归将歌剧演唱(n = 100音频文件)与非歌剧演唱(n = 300音频文件)进行分类感兴趣(仅作为示例)。我有多个可以使用的功能(即MFCC,音调,信号能量)。我想使用PCA来减少尺寸,这将删除“最小的重要变量”。我的问题是,我应该对整个数据集(但歌剧和非歌剧)进行PCA吗?因为如果这样做,是不是会删除歌剧和非歌剧的“最不重要的变量”,而不是删除对识别歌剧最不重要的变量?
答案 0 :(得分:1)
您必须对整个数据进行PCA。
PCA不会删除“最重要的变量”。 PCA是一种降维算法,它将寻找输入特征的线性组合,这些输入特征使用更少的坐标来编码相同量的信息(惯性)。
因此,如果数据具有N_Feats
,则可以将PCA视为维度N_Feats x Projection_size
的矩阵,其中Projection_size < N_Feats
与数据相乘以获得较低维度的投影
这意味着您需要所有功能(变量)来计算投影。
如果您以预测的方式进行思考,则每个班级有两个不同的预测是没有意义的。为什么?有两个原因: