最近邻聚类和K最近邻聚类的差异

时间:2018-07-26 14:53:28

标签: r machine-learning nearest-neighbor

我们是两个学生,他们正在做一篇研讨会论文(主题:大数据时代的市场营销),在该论文中,我们必须使用最近的邻居聚类进行聚类分析。不幸的是,我们无法区分最近邻居聚类和K近邻。首先,我们认为只是被称为“不同”而已。在阅读了许多论文之后,我们说KNN是一种有监督的机器学习算法,而我们的教授说,最近的邻居是无监督的算法,我们认识到一定有区别。互联网上有很多不同的声明,为什么我们现在感到困惑。

希望有人可以帮助我们解决理解问题。

在此先感谢并致以问候。

2 个答案:

答案 0 :(得分:0)

最近邻居算法基本上返回训练示例,该示例与给定的测试样本之间的距离最少。 k个最近邻居至少在距给定测试样本的距离处返回k(一个正整数)训练示例。

答案 1 :(得分:0)

“最近的邻居”只是带有k=1的“ k个最近的邻居”。

可能令人困惑的是,“最近邻居”也适用于有监督和无监督的群集。在受监督的情况下,将“新的”未分类元素分配给与最近的邻居(或最近的k邻居的模式)相同的类。

在无人监督的情况下,我们通常采用“层次聚类”:将两点之间的距离最小;声明一个包含这两个点的新类。

现在迭代从最小到最大的距离;如果在课程中还没有一个要点,则创建一个新的课程来包含它们;如果一个点已经在一个类中,则将另一点添加到该类中;如果两个点都在类中,则合并这些类。继续此过程,直到您拥有所需的班级数量为止。

注意:当您将一个点添加到一个类中时,请从迭代列表中删除该点到其他类成员的距离。合并类时,请删除以前在相反类中的点之间的所有距离。

有帮助吗?