我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是,我无法找到任何相关文档。有人能告诉我是否有可能在Spark上运行Mahout算法?如果是这样,我们可以运行的算法是否有任何限制?
答案 0 :(得分:2)
是的,mahout现在在Spark上运行(即新版本v0.10.0)。
记录了here在不同引擎上可用的算法。
这些可在Spark上使用:
Mahout分布式BLAS。带R和Matlab的分布式行矩阵API 喜欢运营商。分布式ALS,SPCA,SSVD,薄QR。相似 分析。基于用户/项目的协同过滤。朴素贝叶斯 分类。随机SVD。 PCA(通过随机SVD)。 QR 分解。 RowSimilarityJob。
以下是可以使用的算法之一:
mahout spark-itemsimilarity \
-i /mnt/similarity/input \
-o /mnt/similarity/output \
--master yarn-client \
-D:spark.executor.instances=10 \
-D:spark.executor.cores=8