我基于随机子空间方法,使用KNN作为集成体的学习者,建立了分类器模型。
我有三个预测变量,其维度为541个样本,并且我开发了一个优化程序来找到最佳的k(邻居数)。 我选择了最大化分类器AUC的k,其性能是通过10倍交叉验证来计算的。 每个弱学习者的最佳k结果为269(由于类似的优化,结果为60)。
现在,我的问题是: 269个邻居太多了吗?我相信优化的结果,但是我从未使用过太多的邻居,我担心过度拟合。
预先感谢您, MP
答案 0 :(得分:1)
在k-NN中选择 k值取决于数据。我们可以争论更大或更小的k值的一般特征,但是将某个数字指定为好/坏并不是很准确。因此,如果您的 CV 实现是正确的,则您可以信任结果并继续进行下去,因为CV会为您的具体情况提供最优。对于更多一般性讨论,我们可以就 k值的选择说出这些:
1- k值的选择较小:k值的较小选择可能会提高整体精度,并且实现成本较低,但会使系统对嘈杂的输入不那么健壮。>
2- 较大的k值选择:较大的k值选择将使系统对嘈杂的输入更加健壮,但与较小的k相比,执行起来会更昂贵并且决策边界更弱k值。
在应用程序中选择k值时,您始终可以比较这些常规特征。但是,使用 CV 之类的算法选择最佳值将为您提供明确的答案。