让我们说我给出了以下内容,并且需要找到'使用' KNN预测记录15的类标签,并事先知道k设置为3.什么是正确的步骤,无论表格,或标签或k设置为这样做?
前10个是训练数据,另外10个是测试数据。
答案 0 :(得分:0)
首先,您需要将分类数据转换为数字数据。 例如:对于“散光”列,您可以使用1表示“是”,使用0表示“否”。 对于年龄,眼镜处方和眼泪产生率也同样如此。 现在,您已经将分类数据转换为数值,您就可以应用KNN了。 考虑测试数据,逐行选择每一行,并计算其与训练集中每个点的距离(可以是L1距离或L2距离)。因此,对于第11个数据点,您需要计算其从0到10的所有训练点的距离。 注意,仅由于将分类数据转换为数值,才可以计算距离。 然后,在获得与第11个数据点的距离对应的10个距离值与所有其他训练数据点的距离后,选择3个(As k = 3)最小距离的点,并查看它们的标签,然后选择占多数的标签。 对所有测试点重复此操作。