应用错误收集

时间：2014-04-21 17:14:48

标签： statistics dataset cluster-analysis probability survey

任何人都可以帮我找到一个数据集，将分数作为属性值并具有类标签（群集验证的基础真相）。我想找到每个数据项的概率，并将其用于聚类。

优选的属性值是每个属性的用户调查分数（1-差，2 - 满意，3 - 良好，4 - 非常好）的分数。我更喜欢分数值（比如1,2,3， 4）作为属性值，因为很容易从这些得分值计算每个属性值的概率。

我从UCI Repository找到了一些数据集，但并非所有属性值都是得分值。

答案 0 :(得分：0)

大多数（如果不是全部）聚类算法都是基于密度的。

有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法，包括DBSCAN，OPTICS，DENCLUE，......

但是，我的印象是你正在使用术语＆＃34;基于密度＆＃34;与文学不同。你似乎是指概率，而不是密度？

不要指望群集会给出类标签。类不是集群。类可以是不可分离的，或者单个类可以由多个集群组成。例如，着名的虹膜数据集直观地只包含2个聚类（但是3个类）。

对于评估和所有这些，检查现有问题和答案，。