任何人都可以帮我找到一个数据集,将分数作为属性值并具有类标签(群集验证的基础真相)。我想找到每个数据项的概率,并将其用于聚类。
优选的属性值是每个属性的用户调查分数(1-差,2 - 满意,3 - 良好,4 - 非常好)的分数。我更喜欢分数值(比如1,2,3, 4)作为属性值,因为很容易从这些得分值计算每个属性值的概率。
我从UCI Repository找到了一些数据集,但并非所有属性值都是得分值。
答案 0 :(得分:0)
大多数(如果不是全部)聚类算法都是基于密度的。
有大量关于聚类算法的调查文献需要检查。有数百种基于密度的算法,包括DBSCAN,OPTICS,DENCLUE,......
但是,我的印象是你正在使用术语"基于密度"与文学不同。你似乎是指概率,而不是密度?
不要指望群集会给出类标签。类不是集群。类可以是不可分离的,或者单个类可以由多个集群组成。例如,着名的虹膜数据集直观地只包含2个聚类(但是3个类)。
对于评估和所有这些,检查现有问题和答案,。