在Apache Spark中使用分类和数字功能对数据进行聚类

时间:2017-08-04 14:16:45

标签: scala apache-spark apache-spark-mllib

我目前正在寻找Apache Spark(Scala / Java)中的算法,该算法能够对具有数字和分类功能的数据进行聚类。

据我所知,pyspark(https://github.com/ThinkBigAnalytics/pyspark-distributed-kmodes)有k-medoids和k-prototypes的实现,但是我无法识别我目前使用的Scala / Java版本的类似内容。

还有另一种推荐算法可以为Spark运行Scala实现类似的功能吗?或者我是否忽略了一些东西,实际上可以在我的Scala项目中使用pyspark库?

如果您需要进一步的信息或澄清,请随时提出。

1 个答案:

答案 0 :(得分:1)

我认为首先需要使用OneHotEncoder将分类变量转换为数字,然后,您可以使用mllib(例如kmeans)应用聚类算法。此外,我建议在应用群集算法之前执行scaling or normalization,因为它对距离敏感。