如何在Spark Engine上运行Mahout作业?

时间:2015-06-01 21:08:34

标签: hadoop apache-spark mahout

目前我正在使用Mahout RowSimilarity Job进行一些文档相似性分析。这可以通过从控制台运行命令'mahout rowsimilarity ...'轻松完成。但是我注意到这个Job也支持在Spark引擎上运行。我想知道如何在Spark Engine上运行这个Job。

2 个答案:

答案 0 :(得分:1)

你可以在火花中使用MLlib替代mahout。 MLlib中的所有库都以分布式模式处理(Hadoop中的Map-reduce)。

在Mahout 0.10中,通过spark提供作业执行。

更多细节链接 http://mahout.apache.org/users/sparkbindings/play-with-shell.html

用mahout设置火花。

1转到解压缩Spark的目录并键入sbin / start-all.sh以在本地启动Spark

2打开浏览器,将其指向http://localhost:8080/以检查Spark是否已成功启动。复制页面顶部的spark master的url(以spark://开头)

3定义以下环境变量:     export MAHOUT_HOME = [签出Mahout的目录]     导出SPARK_HOME = [解压缩Spark的目录]     export MASTER = [Spark master的url]

4最后,转到你解压缩Mahout的目录并输入bin / mahout spark-shell,你应该看到shell启动并得到提示mahout>。查看常见问题解答以进一步排查故障。

答案 1 :(得分:0)

请访问link。它使用新的mahout 0.10并使用spark服务器。