我有一个包含300个浮点类型列和1个作为因变量的整数列的数据框。 300列分为3种: 1.种类A:第1至100列 2.种类B:第101至200列 3.种类C:第201至300列 我想减少尺寸的数量。我应该将每种类型的值取平均值并汇总为3列(每种类型一列),还是应该执行一些降维技术(例如PCA)?相同的理由是什么?
答案 0 :(得分:1)
选项1:
如果您有大量的训练数据(例如要训练5个以上的300个样本),请不要进行降维处理
选项2:
由于您知道数据有3种,因此分别运行这三种PCA并分别获得2种功能。即
f1, f2 = PCA(kind A columns)
f3, f4 = PCA(kind B columns)
f5, f6 = PCA(kind C columns)
train(f1, f2, f3, f4, f5, f6)
选项3
在所有列上运行PCA,仅采用保留90个以上差异的列数
请勿平均,平均效果不好。但是,如果您确实要进行平均,并且可以确定某些功能很重要,则可以使用加权平均。通常,对特征进行平均以减小尺寸是一个非常糟糕的主意。
答案 1 :(得分:0)
PCA仅考虑与输出/结果具有最高关联的行。因此,并非所有行都将被视为确定输出的过程的一部分。 因此,如果您进行平均会更好,因为它将考虑所有行并确定它们的输出。 由于u具有大量特征,因此最好使用所有特征来确定输出。