第一个图是通过转移25个特征要素矩阵的图,第二个图是从相同的特征矩阵转换而来的,但可以通过StandardScaler()进行缩放。我对此问题感到非常困惑,我知道PCA用于可视化高维数据。但是我不理解“好的” PCA图的含义。两个图看起来都有很多点彼此重合,但是我认为可以通过放大或更改比例尺来克服,所以我认为图中的重合点数不应作为判断是否一致的标准更好。
我有另一个想法,那就是缩放的图(是第二个图)具有更加清晰的簇(大多数红色点在第二个主要成分上-y轴和蓝色点在第一个成分中- x轴),因此从这一方面来看,我认为缩放的比例更好。 有人可以向我解释吗?
谢谢!
答案 0 :(得分:0)
据我所知,StandardScaler()
(我猜您正在使用sklearn
中的那个)将数据转换为均值为零和单位方差。
这是机器学习应用程序通常的步骤,以使数据更“高斯”,例如机器学习算法可以更好地处理它们。如果数据集的方差比其他数据集大得多,则该数据集将主导对象。正如您已经说过的,“缩放”图看起来更好,因为数据得到了更平等的对待。另请参见here。