K最近邻居分类具有相同点的特例

时间:2013-09-08 06:32:41

标签: algorithm machine-learning classification nearest-neighbor

问题是关于KNN算法的分类 - 训练样本的类标签是离散的。

假设训练集的n点与我们即将分类的新模式相同,即从这些点到新观察点的距离为零(或<epsilon)。可能会发生这些相同的训练点具有不同的类别标签。现在假设n < K并且还有一些其他训练点是最近邻集合的一部分,但与新观察的距离非零。在这种情况下,我们如何将类标签分配给新点?

几乎没有可能,例如:

  1. 考虑所有K(或者如果与最差的最近邻居存在联系)或更多的投票
  2. 忽略非零距离的邻居,如果有&#34;克隆&#34;训练数据中的新观点,并且仅对克隆进行多数投票
  3. 与2.相同但是在训练数据中(在克隆中)指定具有最高先验概率的类
  4. ...
  5. 有什么想法吗? (参考文献也将受到赞赏)

1 个答案:

答案 0 :(得分:1)

每种提出的方​​法都会在某些问题中起作用,而在某些问题上则不然。一般来说,没有必要实际考虑这种边界情况,只需使用默认行为(问题中的选项“1”)。实际上,如果任何分类算法的边界情况成为问题,则它至少是以下之一的信号:

  • 问题定义不好,
  • 错误的数据表示,
  • 糟糕的数据预处理,
  • 使用了糟糕的模型。

从理论的角度来看,如果某些点完全取代您的训练数据,则不会发生任何变化。唯一的区别是,如果您有一致的训练集(在某种意义上,训练数据中不会出现不同标签的重复)并且100%正确(每个标签都是完美标记为此(点),然后添加一个if clausule根据点的标签回答是合理的。但实际情况并非如此。