标签: r cluster-analysis scalability
我有几组数据,行数最多为24,000。我手动计算了点之间的成对距离,其中距离基于自定义文本匹配规则。
我已经能够在大小为1000的组上使用hclust执行凝聚聚类,但我的系统资源无法处理24K x 24K / 2比较所需的较大的群体。
hclust
距离的表示占用O [n ^ 2]空间,但聚类表示应该只占用O(n * ln(n))空间。 R中是否有任何可以批量执行凝聚聚类的软件包?