使用不同方法对数据进行聚类

时间:2018-01-16 10:26:56

标签: cluster-analysis

我有以下类型的数据:

*。edge文件具有不同用户的ID之间的连接:

1 23

4 67

...

*。feat包含id的属性。这里第一列(第0列)是用户ID。其他的表示在另一个文件中命名的功能。例如,用户标识1不具有第1列(0)的功能,但用户标识4具有(1):

1:0 0 1 0 1 1 0 1 1

4:1 0 1 1 1 0 1 1 1

...

现在我想对数据进行聚类,并希望使用不同的算法,如k-means,DBSCAN,层次聚类等。但正如我所读到的,多维数据有几个问题?

1 个答案:

答案 0 :(得分:0)

高维数据存在问题,但10不高。您还有其他问题:k-means需要坐标来计算均值,而不是带边的图。此外,值应该是连续的,而不是二进制的。您需要更详细地研究这些方法。如果你说“但是当我读...”,那么试着提供一个参考。