为了解释,假设我正在检查9个最近邻居并对手写数字数据集进行分类。测试集中的第一个实例具有五个最近邻居类'4'和四个邻居类'9'。第二个测试实例有八个类'4'的邻居和一个'9'类的邻居。显然,第二个测试实例被归类为“4”,其确定性比第一个更为确定。如何用函数表达这个,以及如何考虑距离?
我还想将其实现给其他分类器。对于任何类型的分类器,我都可以使用具有此功能的C / C ++库吗?
答案 0 :(得分:0)
您应该尝试使用轮廓值和绘图。它可以在cluster
语言的R
包中找到。
答案 1 :(得分:0)
天真的回答:将计数归一化以给出后验概率。使用加权计数,权重对应于相似度(距离的倒数)以考虑距离。
更好的主意:将kernel density estimation视为更正式的版本。