如何在Spark上运行Mahout

时间:2015-04-21 22:24:22

标签: hadoop apache-spark mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是,我无法找到任何相关文档。有人能告诉我是否有可能在Spark上运行Mahout算法?如果是这样,我们可以运行的算法是否有任何限制?

1 个答案:

答案 0 :(得分:2)

是的,mahout现在在Spark上运行(即新版本v0.10.0)。

记录了here在不同引擎上可用的算法。

这些可在Spark上使用:

  

Mahout分布式BLAS。带R和Matlab的分布式行矩阵API   喜欢运营商。分布式ALS,SPCA,SSVD,薄QR。相似   分析。基于用户/项目的协同过滤。朴素贝叶斯   分类。随机SVD。 PCA(通过随机SVD)。 QR   分解。 RowSimilarityJob。

以下是可以使用的算法之一:

mahout spark-itemsimilarity           \
       -i /mnt/similarity/input       \
       -o /mnt/similarity/output      \
       --master yarn-client           \
       -D:spark.executor.instances=10 \
       -D:spark.executor.cores=8