什么是python中的簇,相似度和距离?

时间:2018-07-13 03:41:05

标签: python machine-learning cluster-analysis data-science

我正在观看MIT OpenCourseWare 6.0002群集视频,并且我不理解该课程中的某些代码。

.Cluster是什么?

for e in initialCentroids:
        clusters.append(cluster.Cluster([e]))

什么是.distance

  for e in examples:
            smallestDistance = e.distance(clusters[0].getCentroid())

什么是.dissimilarity

 minDissimilarity = cluster.dissimilarity(best)

从代码中我可以了解他们在做什么,但是我想对此进行更详细的介绍。相关文件将不胜感激!

1 个答案:

答案 0 :(得分:1)

这些术语主要用于描述数据及其之间的关系。让我们从集群开始。

Cluster是一组观测数据点,在某些意义上可能具有相似的特征。聚类主要是无监督学习的方法。容易想象-地图是一组群集,按国籍将人分组,但是就像在ML中一样,人们可能会分散到其他国家/地区,这在某些年级之前都是正常的。

如果我们将distance作为clusters之间的距离,则该术语指的是cluster1的质心距cluster2的质心有多远。通过测量点到所有群集的质心的距离,术语也可以指给定的点-在该点上,群集将以最小的距离拥有该点。

此外,dissimilarity描述者与距离的值几乎相同,它说明了数据点与原始质心的相似之处。这意味着一旦距离很高-我认为相异性也很高-对此不确定。

希望有帮助。