应用错误收集

不同大小的簇邻接矩阵

时间：2011-12-05 22:05:34

标签： graph cluster-analysis data-mining adjacency-matrix

我为不同大小的有向图创建了邻接矩阵。我有大约30,000个矩阵，每个矩阵都在一个单独的文本文件中。如何对它们进行聚类，是否有可用的工具。表示聚类有向图的最佳方法是什么。

谢谢。

3 个答案:

答案 0 :(得分：1)

我会尝试k-means和voronoi图。它可以通过最小生成树计算并查找最长边。然后，您可以使用mst边缘作为中心，使用传统的k-means计算不同的聚类。另一种可能性是分层聚类，例如空间填充曲线。例如，请参阅：https://stats.stackexchange.com/questions/1475/visualization-software-for-clustering。

答案 1 :(得分：1)

您想要达到什么目标？组合类似的矩阵，对吗？使用k-means，你在这里不会有太多乐趣。邻接矩阵是二进制的;将它们解释为巨大的向量并计算它们的L-p范数距离（例如欧几里德距离），然后计算平均矩阵 - 这就是k-means所做的 - 对我来说听起来并不合理。另外，您可能会被维度诅咒所困扰。大量的维度将使所有矩阵看起来相似。

对于几乎任何聚类算法，你作为“域专家”必须回答的第一个问题是：是什么让两个邻接矩阵相似？一旦你有形式化这一点，您将能够运行许多聚类算法，包括经典的单链路聚类，DBSCAN或OPTICS。

答案 2 :(得分：0)

您可以在此处找到图表功能/统计信息的一些想法： http://networkx.lanl.gov/reference/algorithms.html