基于概率和可能的聚类验证方法的基于密度的聚类的数据集

时间:2014-04-21 17:14:48

标签: statistics dataset cluster-analysis probability survey

任何人都可以帮我找到一个数据集,将分数作为属性值并具有类标签(群集验证的基础真相)。我想找到每个数据项的概率,并将其用于聚类。

优选的属性值是每个属性的用户调查分数(1-差,2 - 满意,3 - 良好,4 - 非常好)的分数。我更喜欢分数值(比如1,2,3, 4)作为属性值,因为很容易从这些得分值计算每个属性值的概率。

我从UCI Repository找到了一些数据集,但并非所有属性值都是得分值。

1 个答案:

答案 0 :(得分:0)

大多数(如果不是全部)聚类算法都是基于密度的。

有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法,包括DBSCAN,OPTICS,DENCLUE,......

但是,我的印象是你正在使用术语"基于密度"与文学不同。你似乎是指概率,而不是密度?

不要指望群集会给出类标签。类不是集群。类可以是不可分离的,或者单个类可以由多个集群组成。例如,着名的虹膜数据集直观地只包含2个聚类(但是3个类)。

对于评估和所有这些,检查现有问题和答案,