我有以下类型的数据:
*。edge文件具有不同用户的ID之间的连接:
1 23
4 67
...
*。feat包含id的属性。这里第一列(第0列)是用户ID。其他的表示在另一个文件中命名的功能。例如,用户标识1不具有第1列(0)的功能,但用户标识4具有(1):
1:0 0 1 0 1 1 0 1 1
4:1 0 1 1 1 0 1 1 1
...
现在我想对数据进行聚类,并希望使用不同的算法,如k-means,DBSCAN,层次聚类等。但正如我所读到的,多维数据有几个问题?
答案 0 :(得分:0)
高维数据存在问题,但10不高。您还有其他问题:k-means需要坐标来计算均值,而不是带边的图。此外,值应该是连续的,而不是二进制的。您需要更详细地研究这些方法。如果你说“但是当我读...”,那么试着提供一个参考。