应用错误收集

Spark Clustering：如何获得同一群集中元素的相似性度量？

时间：2016-09-26 17:40:41

标签： scala apache-spark cluster-analysis apache-spark-mllib cosine-similarity

我使用Spark聚集了一些数据，现在我希望在我感兴趣的特定条目和我的条目所在的同一群集中的其他元素之间获得相似性得分。是否有任何Spark算法或方法？

我已经阅读了RowMatrix的ColumnSimilarities（）函数，但我对所有与所有相似性不感兴趣，只是针对其他向量集的非常具体的相似性。

1 个答案:

答案 0 :(得分：1)

似乎Spark中没有这样的内置功能。您可以使用ColumnSimilarities()，然后索引i和j中的结果对应于项目i和j。

然而，这显然效率低下，说实话也不好。

所以如果我是你，我会查看ColumnSimilarities()的实现，并根据项目对相似性进行调整;如果它很好你也可以为Apache Spark项目做出贡献！ ;）