我想模糊群集一组作业。 职位属性是:
我的问题是:如何计算不同工作之间的距离?
例如 job1 (程序员,计算机科学,(java,.net,责任),1500,3)
和 job2 (测试员,计算机科学,(黑白盒测试),1200,1)
PS:我是数据挖掘集群的初学者,非常感谢您的帮助。
答案 0 :(得分:3)
您可以将此作为起点: http://www.econ.upf.edu/~michael/stanford/maeb4.pdf。最后,很清楚地解释了分类数据之间的距离。
答案 1 :(得分:2)
以下是几种不同聚类方法的详细介绍以及如何在R中使用它们:http://biocluster.ucr.edu/~tgirke/HTML_Presentations/Manuals/Clustering/clustering.pdf
通常,离散数据的聚类与计数的使用(例如向量中的重叠)或与从计数得出的某些统计有关。尽管我想解决统计方面的问题,但我想你对这个算法很感兴趣,所以我会把它留在那里。