我正在使用Spark MLlib的Power Iteration Clustering功能来聚类无向图。当节点数量和亲和度矩阵的大小非常大时,该模型的计算成本很高。在这种情况下,重新估计新数据的集群将成为一个非常昂贵的过程。
问题:
- 有没有办法从Spark MLlib生成的 PowerIterationClusteringModel 对象预测新点的集群成员资格?
- 如何从模型对象访问模型估计的中间结果,例如估计的eignevectors和特征值&在eignevectors跨越的空间中投影数据点?目前,只有群集分配通过API
公开
- 我从this问题中发现了一些用于谱聚类的增量/在线学习方法。 Spark上有这样的方法可用吗?
醇>