我正在一个项目中,我正在使用数据集-https://www.kaggle.com/aljarah/xAPI-Edu-Data 。我想根据数据集的各种属性(例如举手,访问的资源,查看的公告等)对学生(每个学生代表索引)进行聚类。 请建议我如何使用DBSCAN来实现这一目标,否则请提出一些我可以通过其实现的技术。我是数据科学领域的新手。
谢谢
我尝试研究gmm和dbscan。
我想对数据集进行聚类。
答案 0 :(得分:0)
任何标准的DBSCAN实现都将支持多个属性。
在属性具有非常不同的类型时,大多数情况下,这将取决于您的决定如何测量相似性。欧几里德距离可能没有意义。但是,没有做到这一点的“正确”方法,这取决于您如何对数据建模。不幸的是,在此数据集上,这将是任意的,因为这些属性没有自然尺度。