问题是关于KNN算法的分类 - 训练样本的类标签是离散的。
假设训练集的n
点与我们即将分类的新模式相同,即从这些点到新观察点的距离为零(或<epsilon
)。可能会发生这些相同的训练点具有不同的类别标签。现在假设n < K
并且还有一些其他训练点是最近邻集合的一部分,但与新观察的距离非零。在这种情况下,我们如何将类标签分配给新点?
几乎没有可能,例如:
有什么想法吗? (参考文献也将受到赞赏)
答案 0 :(得分:1)
每种提出的方法都会在某些问题中起作用,而在某些问题上则不然。一般来说,没有必要实际考虑这种边界情况,只需使用默认行为(问题中的选项“1”)。实际上,如果任何分类算法的边界情况成为问题,则它至少是以下之一的信号:
从理论的角度来看,如果某些点完全取代您的训练数据,则不会发生任何变化。唯一的区别是,如果您有一致的训练集(在某种意义上,训练数据中不会出现不同标签的重复)并且100%正确(每个标签都是完美标记为此(点),然后添加一个if clausule根据点的标签回答是合理的。但实际情况并非如此。