应用错误收集

时间：2014-07-08 07:24:18

标签： machine-learning classification nearest-neighbor reliability supervised-learning

为了解释，假设我正在检查9个最近邻居并对手写数字数据集进行分类。测试集中的第一个实例具有五个最近邻居类'4'和四个邻居类'9'。第二个测试实例有八个类'4'的邻居和一个'9'类的邻居。显然，第二个测试实例被归类为“4”，其确定性比第一个更为确定。如何用函数表达这个，以及如何考虑距离？

我还想将其实现给其他分类器。对于任何类型的分类器，我都可以使用具有此功能的C / C ++库吗？

答案 0 :(得分：0)

您应该尝试使用轮廓值和绘图。它可以在cluster语言的R包中找到。

答案 1 :(得分：0)

天真的回答：将计数归一化以给出后验概率。使用加权计数，权重对应于相似度（距离的倒数）以考虑距离。

更好的主意：将kernel density estimation视为更正式的版本。