Question

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是，我无法找到任何相关文档。有人能告诉我是否有可能在Spark上运行Mahout算法？如果是这样，我们可以运行的算法是否有任何限制？

Answer 1

是的，mahout现在在Spark上运行（即新版本v0.10.0）。

记录了here在不同引擎上可用的算法。

这些可在Spark上使用：

Mahout分布式BLAS。带R和Matlab的分布式行矩阵API 喜欢运营商。分布式ALS，SPCA，SSVD，薄QR。相似分析。基于用户/项目的协同过滤。朴素贝叶斯分类。随机SVD。 PCA（通过随机SVD）。 QR 分解。 RowSimilarityJob。

以下是可以使用的算法之一：

mahout spark-itemsimilarity           \
       -i /mnt/similarity/input       \
       -o /mnt/similarity/output      \
       --master yarn-client           \
       -D:spark.executor.instances=10 \
       -D:spark.executor.cores=8

如何在Spark上运行Mahout

1 个答案: