PCA与平均列

时间:2019-08-03 04:42:19

标签: machine-learning pca dimensionality-reduction

我有一个包含300个浮点类型列和1个作为因变量的整数列的数据框。 300列分为3种: 1.种类A:第1至100列 2.种类B:第101至200列 3.种类C:第201至300列 我想减少尺寸的数量。我应该将每种类型的值取平均值并汇总为3列(每种类型一列),还是应该执行一些降维技术(例如PCA)?相同的理由是什么?

2 个答案:

答案 0 :(得分:1)

选项1:

如果您有大量的训练数据(例如要训练5个以上的300个样本),请不要进行降维处理

选项2:

由于您知道数据有3种,因此分别运行这三种PCA并分别获得2种功能。即

f1, f2 = PCA(kind A columns)
f3, f4 = PCA(kind B columns)
f5, f6 = PCA(kind C columns)
train(f1, f2, f3, f4, f5, f6)

选项3

在所有列上运行PCA,仅采用保留90个以上差异的列数

请勿平均,平均效果不好。但是,如果您确实要进行平均,并且可以确定某些功能很重要,则可以使用加权平均。通常,对特征进行平均以减小尺寸是一个非常糟糕的主意。

答案 1 :(得分:0)

PCA仅考虑与输出/结果具有最高关联的行。因此,并非所有行都将被视为确定输出的过程的一部分。 因此,如果您进行平均会更好,因为它将考虑所有行并确定它们的输出。 由于u具有大量特征,因此最好使用所有特征来确定输出。