如何对具有多个属性的数据集使用DBSCAN聚类算法?

时间:2019-03-31 08:09:17

标签: cluster-computing cluster-analysis dbscan gmm

我正在一个项目中,我正在使用数据集-https://www.kaggle.com/aljarah/xAPI-Edu-Data  。我想根据数据集的各种属性(例如举手,访问的资源,查看的公告等)对学生(每个学生代表索引)进行聚类。 请建议我如何使用DBSCAN来实现这一目标,否则请提出一些我可以通过其实现的技术。我是数据科学领域的新手。

谢谢

我尝试研究gmm和dbscan。

我想对数据集进行聚类。

1 个答案:

答案 0 :(得分:0)

任何标准的DBSCAN实现都将支持多个属性。

在属性具有非常不同的类型时,大多数情况下,这将取决于您的决定如何测量相似性。欧几里德距离可能没有意义。但是,没有做到这一点的“正确”方法,这取决于您如何对数据建模。不幸的是,在此数据集上,这将是任意的,因为这些属性没有自然尺度。