我想实现粗略的c意味着聚类算法,但我没有聚类的经验,所以我想知道是否需要对数据进行一些预处理以使其可用于聚类。
例如,假设我有一个csv文件,其中包含许多属性,一些数字,一些字符串。
为了让我应用粗糙的c意味着clusering(或任何其他类型的clusering),我应该应用其他粗略的方法,如属性选择,规则发现,离散化,做下/近似近似?
用于群集的一组混合数据的正常流量是多少?如果我使用粗糙集方法算法进行聚类,数据会经历什么?
是否存在应该发生事情的某种顺序?我试着查找这些信息,但我无法在任何地方找到它。
任何想法?或者我怎样才能让我的问题更清楚,以便得到答案,因为我找不到任何可以帮助我开始聚类数据的东西,我也看不到聚类原始数据如何帮助我
rank discipline yrs.since.phd yrs.service sex salary
1 Prof B 19 18 Male 139750
2 Prof B 20 16 Male 173200
3 AsstProf B 4 3 Male 79750
4 Prof B 45 39 Male 115000
5 Prof B 40 41 Male 141500
6 AssocProf B 6 6 Male 97000
7 Prof B 30 23 Male 175000
8 Prof B 45 45 Male 147765
9 Prof B 21 20 Male 119250
10 Prof B 18 18 Female 129000
11 AssocProf B 12 8 Male 119800
12 AsstProf B 7 2 Male 79800
13 AsstProf B 1 1 Male 77700
14 AsstProf B 2 0 Male 78000
15 Prof B 20 18 Male 104800
16 Prof B 12 3 Male 117150
17 Prof B 19 20 Male 101000
18 Prof A 38 34 Male 103450
19 Prof A 37 23 Male 124750
20 Prof A 39 36 Female 137000