我的数据集为178,包含13个属性。我将它们分为两组(100和78)进行训练和测试。
我想确定每个标记样本的k个最近邻居。如果样本的标签比k个最近邻居的任何其他标签更常见,则将分类计为正确,否则,将分类计为不正确。
这是我完全迷失的部分。
答案 0 :(得分:0)
我看到你正试图理解KNN的概念。
这更容易理解。
一个对象通过其邻居的多数投票进行分类,该对象被分配给其k个最近邻居中最常见的类(k是正整数,通常很小)。
查看维基百科的KNN:http://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm
希望这有帮助。