如何测量k-最近邻分类器给出的结果的可靠性?

时间:2014-07-08 07:24:18

标签: machine-learning classification nearest-neighbor reliability supervised-learning

为了解释,假设我正在检查9个最近邻居并对手写数字数据集进行分类。测试集中的第一个实例具有五个最近邻居类'4'和四个邻居类'9'。第二个测试实例有八个类'4'的邻居和一个'9'类的邻居。显然,第二个测试实例被归类为“4”,其确定性比第一个更为确定。如何用函数表达这个,以及如何考虑距离?

我还想将其实现给其他分类器。对于任何类型的分类器,我都可以使用具有此功能的C / C ++库吗?

2 个答案:

答案 0 :(得分:0)

您应该尝试使用轮廓值和绘图。它可以在cluster语言的R包中找到。

答案 1 :(得分:0)

天真的回答:将计数归一化以给出后验概率。使用加权计数,权重对应于相似度(距离的倒数)以考虑距离。

更好的主意:将kernel density estimation视为更正式的版本。