我们是两个学生,他们正在做一篇研讨会论文(主题:大数据时代的市场营销),在该论文中,我们必须使用最近的邻居聚类进行聚类分析。不幸的是,我们无法区分最近邻居聚类和K近邻。首先,我们认为只是被称为“不同”而已。在阅读了许多论文之后,我们说KNN是一种有监督的机器学习算法,而我们的教授说,最近的邻居是无监督的算法,我们认识到一定有区别。互联网上有很多不同的声明,为什么我们现在感到困惑。
希望有人可以帮助我们解决理解问题。
在此先感谢并致以问候。
答案 0 :(得分:0)
最近邻居算法基本上返回训练示例,该示例与给定的测试样本之间的距离最少。 k个最近邻居至少在距给定测试样本的距离处返回k(一个正整数)训练示例。
答案 1 :(得分:0)
“最近的邻居”只是带有k=1
的“ k个最近的邻居”。
可能令人困惑的是,“最近邻居”也适用于有监督和无监督的群集。在受监督的情况下,将“新的”未分类元素分配给与最近的邻居(或最近的k
邻居的模式)相同的类。
在无人监督的情况下,我们通常采用“层次聚类”:将两点之间的距离最小;声明一个包含这两个点的新类。
现在迭代从最小到最大的距离;如果在课程中还没有一个要点,则创建一个新的课程来包含它们;如果一个点已经在一个类中,则将另一点添加到该类中;如果两个点都在类中,则合并这些类。继续此过程,直到您拥有所需的班级数量为止。
注意:当您将一个点添加到一个类中时,请从迭代列表中删除该点到其他类成员的距离。合并类时,请删除以前在相反类中的点之间的所有距离。
有帮助吗?