使用k最近邻居的一个班级中有多少样本是最优的?

时间:2012-06-18 18:08:02

标签: c++ algorithm pattern-matching nearest-neighbor

我在我的系统中实现了k-nearest算法。它由26个类组成,每个类100个样本。就我而言,K = 7,获得最佳分类结果完全是反复试验。

我知道应该明智地选择K以减少分类上的噪音。但是样品的数量呢?是否有任何一般规则,例如“样本越多,效果越好”?它取决于什么?

感谢您的所有回复。

1 个答案:

答案 0 :(得分:0)

您可以尝试考虑生成数据的任何基础机制,或者您对问题的任何背景知识,这可能会让您了解噪声的相对大小和真正的潜在变化。例如。从地点预测最喜欢的运动队我会期望比预测最喜欢的运动更多的变化,所以会使用更小的k。但是,除了使用交叉验证之外,我不知道很多一般性的指导。