我通过在kaggle上浏览其他人的内核来学习机器学习,特别是这个Mushroom Classification kernel。作者首先将PCA应用于转换后的指标矩阵。稍后,他仅使用2个主要组件进行可视化。然后我检查了它保持了多少差异,发现只有16%的差异得以保持。
in [18]: pca.explained_variance_ratio_.cumsum()
out[18]: array([0.09412961, 0.16600686])
但是,测试结果具有90%的准确度,表明它运行良好。我的问题是,如果方差代表信息,那么当大量信息丢失时,ML模型如何才能很好地工作?
答案 0 :(得分:2)
您应注意,原始向量空间中的许多变量都是稀疏编码的分类变量。 PCA并非最适合此类变量,因此不建议您在所引用的代码中使用PCA。
现在您显而易见的问题是:为什么它首先起作用?为什么只使用两个变量?问问自己:如果我告诉你颜色是红色和有ill(薄片),你能分辨出蘑菇是否有毒吗?如果您对蘑菇一无所知,那么在大多数情况下您都可以告诉您。这就是这里的算法正在做的事情。没有太多差异可以解释,因为变量很多,并且一些最有意义的变量(例如颜色)被稀疏编码,因此对于分布在许多变量上的PCA来说是有效的。
此外,我不会说它很好用,而可视化正是显示了这一点。考虑这张显示逻辑回归测试集结果的图像:
根据测试结果,它具有90%的准确度。当您查看它时,您认为效果很好吗?左下角有可食用和有毒蘑菇的混合物。显然,这是我们两个计算出的特征还不够的地方。红宝石牛肝菌是红色且可食用。