标签: machine-learning cluster-analysis spark-streaming apache-spark-mllib hierarchical-clustering
我需要对将要及时到达的多个数据点进行分类。如果我只知道在数据点上可能找到多少个不同的类(簇),那么流式K-Means就可以了。有没有办法使用Spark MLlib'开箱即用'来运行流聚类算法,其中有一个未知数量的聚类?