假设对于K最近邻算法,我们有一个原始训练数据集x1,x2,...,xn
,我们测试p1
。在对p1
进行分类后,我们将p1
放入训练数据集中。
最新的培训数据集现在为{x1,x2,....,xn,p1}
,我们测试p2
...等等。
我认为上述内容非常直观,我们使用“假”数据来训练我们的程序。但我无法想出任何证据/理由说明为什么我们不能使用“假”数据。
答案 0 :(得分:1)
它只会通过使用自己的预测更新类之间的边界,使模型更偏向于原始训练集。此外,在不提供任何地面实况知识的情况下为训练集添加更多观测值只会使特征空间更加密集并减少K的影响,从而导致过度拟合的可能性更高。