我正在观看MIT OpenCourseWare 6.0002群集视频,并且我不理解该课程中的某些代码。
.Cluster
是什么?
for e in initialCentroids:
clusters.append(cluster.Cluster([e]))
什么是.distance
?
for e in examples:
smallestDistance = e.distance(clusters[0].getCentroid())
什么是.dissimilarity
?
minDissimilarity = cluster.dissimilarity(best)
从代码中我可以了解他们在做什么,但是我想对此进行更详细的介绍。相关文件将不胜感激!
答案 0 :(得分:1)
这些术语主要用于描述数据及其之间的关系。让我们从集群开始。
Cluster
是一组观测数据点,在某些意义上可能具有相似的特征。聚类主要是无监督学习的方法。容易想象-地图是一组群集,按国籍将人分组,但是就像在ML中一样,人们可能会分散到其他国家/地区,这在某些年级之前都是正常的。
如果我们将distance
作为clusters
之间的距离,则该术语指的是cluster1的质心距cluster2的质心有多远。通过测量点到所有群集的质心的距离,术语也可以指给定的点-在该点上,群集将以最小的距离拥有该点。
此外,dissimilarity
描述者与距离的值几乎相同,它说明了数据点与原始质心的相似之处。这意味着一旦距离很高-我认为相异性也很高-对此不确定。
希望有帮助。