数据挖掘 - K最近邻居

时间:2016-03-14 01:40:37

标签: machine-learning classification nearest-neighbor

这是我的作业。我不是要求你在这里做我的作业,我需要一个提示继续前进。

Page1

Page2

我知道K最近邻算法是什么,但我总是在不像这样的图上看到它。你们能告诉我应该怎么做吗?我一直试图弄清楚如何开始这样做,但我不能。我很感激你们的一点点暗示。

1 个答案:

答案 0 :(得分:1)

此作业可帮助您了解KNN中的步骤。 KNN基于距离。找到K个最近的邻居,然后可能投票给分类问题。

您的训练数据可以被视为(x1,x2,y):年龄和利润是特征(x1,x2),而购买或不购买是标签/输出y。

要应用Knn,您需要计算基于特征的距离。由于这两个特征共享不同的单位(年,美元),您应该将它们转换为非单位特征,称为规范化,在您的讲义中的第4.1部分。之后,特征向量看起来像(-0.4,-0.8)。如果使用4.1部分中的建议公式,则数字应介于-1和0之间。

然后使用标准化特征计算每个训练数据点与您感兴趣的公司之间的距离(欧共体中的欧几里德)(也标准化)。这在4.2中是必需的。

最后一步应该是选择K最近邻居并根据这些邻居的输出判断购买或不购买。 (简单的投票可能吗?)