我正在使用KNN对手写数字进行分类。我现在也已经实施了PCA以减少维数。从256我到200.但我只注意到,~0.10%的信息丢失。我删了56维。损失不应该更大吗?只有当我跌到5维时,才会有20%的损失。这是正常的吗?
答案 0 :(得分:8)
你说在删除56个维度后,你几乎没有丢失任何信息?当然,这就是PCA的重点!顾名思义,Principal Component Analysis可帮助您确定哪些维度包含信息。你可以删除剩下的部分,这是其中最重要的部分。
我想要一些例子,在基因分析中,我已经阅读了使用PCA将尺寸从40'000减少到100的论文,然后他们做了一些神奇的东西,并且拥有19个尺寸的优秀分类器。这隐含地告诉你,当他们移除39'900尺寸时,他们几乎没有丢失任何信息!
答案 1 :(得分:1)
这是正常的,是的(就像Fezvez所说的那样)。你的案例实际上是一个很好的例子,你可以看到它是如何可能的。
查看您的数据(这在机器学习中非常重要,了解您的数据)。如果您在白色上有黑色手写数字的图像,那么所有样本中某些角落的像素很可能是白色的(当我在手工编写的数字上进行机器学习时,我在一个角落里有这个像素)。所以在那个像素中实际上没有任何信息。如果你把它作为你的KNN或ANN或其他任何东西的输入,你将得到相同的结果。