准备数据以进行聚类分析和数据预处理

时间:2017-04-13 11:04:28

标签: set dataset classification cluster-analysis fuzzy-logic

我想实现粗略的c意味着聚类算法,但我没有聚类的经验,所以我想知道是否需要对数据进行一些预处理以使其可用于聚类。

例如,假设我有一个csv文件,其中包含许多属性,一些数字,一些字符串。

为了让我应用粗糙的c意味着clusering(或任何其他类型的clusering),我应该应用其他粗略的方法,如属性选择,规则发现,离散化,做下/近似近似?

用于群集的一组混合数据的正常流量是多少?如果我使用粗糙集方法算法进行聚类,数据会经历什么?

是否存在应该发生事情的某种顺序?我试着查找这些信息,但我无法在任何地方找到它。

任何想法?或者我怎样才能让我的问题更清楚,以便得到答案,因为我找不到任何可以帮助我开始聚类数据的东西,我也看不到聚类原始数据如何帮助我

    rank    discipline  yrs.since.phd   yrs.service sex salary  
1   Prof    B   19  18  Male    139750  
2   Prof    B   20  16  Male    173200  
3   AsstProf    B   4   3   Male    79750   
4   Prof    B   45  39  Male    115000  
5   Prof    B   40  41  Male    141500  
6   AssocProf   B   6   6   Male    97000   
7   Prof    B   30  23  Male    175000  
8   Prof    B   45  45  Male    147765  
9   Prof    B   21  20  Male    119250  
10  Prof    B   18  18  Female  129000  
11  AssocProf   B   12  8   Male    119800  
12  AsstProf    B   7   2   Male    79800   
13  AsstProf    B   1   1   Male    77700   
14  AsstProf    B   2   0   Male    78000   
15  Prof    B   20  18  Male    104800  
16  Prof    B   12  3   Male    117150  
17  Prof    B   19  20  Male    101000  
18  Prof    A   38  34  Male    103450  
19  Prof    A   37  23  Male    124750  
20  Prof    A   39  36  Female  137000  

0 个答案:

没有答案