Question

我想实现粗略的c意味着聚类算法，但我没有聚类的经验，所以我想知道是否需要对数据进行一些预处理以使其可用于聚类。

例如，假设我有一个csv文件，其中包含许多属性，一些数字，一些字符串。

为了让我应用粗糙的c意味着clusering（或任何其他类型的clusering），我应该应用其他粗略的方法，如属性选择，规则发现，离散化，做下/近似近似？

用于群集的一组混合数据的正常流量是多少？如果我使用粗糙集方法算法进行聚类，数据会经历什么？

是否存在应该发生事情的某种顺序？我试着查找这些信息，但我无法在任何地方找到它。

任何想法？或者我怎样才能让我的问题更清楚，以便得到答案，因为我找不到任何可以帮助我开始聚类数据的东西，我也看不到聚类原始数据如何帮助我

    rank    discipline  yrs.since.phd   yrs.service sex salary  
1   Prof    B   19  18  Male    139750  
2   Prof    B   20  16  Male    173200  
3   AsstProf    B   4   3   Male    79750   
4   Prof    B   45  39  Male    115000  
5   Prof    B   40  41  Male    141500  
6   AssocProf   B   6   6   Male    97000   
7   Prof    B   30  23  Male    175000  
8   Prof    B   45  45  Male    147765  
9   Prof    B   21  20  Male    119250  
10  Prof    B   18  18  Female  129000  
11  AssocProf   B   12  8   Male    119800  
12  AsstProf    B   7   2   Male    79800   
13  AsstProf    B   1   1   Male    77700   
14  AsstProf    B   2   0   Male    78000   
15  Prof    B   20  18  Male    104800  
16  Prof    B   12  3   Male    117150  
17  Prof    B   19  20  Male    101000  
18  Prof    A   38  34  Male    103450  
19  Prof    A   37  23  Male    124750  
20  Prof    A   39  36  Female  137000

准备数据以进行聚类分析和数据预处理

0 个答案: