目前我正在使用Mahout RowSimilarity Job进行一些文档相似性分析。这可以通过从控制台运行命令'mahout rowsimilarity ...'轻松完成。但是我注意到这个Job也支持在Spark引擎上运行。我想知道如何在Spark Engine上运行这个Job。
答案 0 :(得分:1)
你可以在火花中使用MLlib替代mahout。 MLlib中的所有库都以分布式模式处理(Hadoop中的Map-reduce)。
在Mahout 0.10中,通过spark提供作业执行。
更多细节链接 http://mahout.apache.org/users/sparkbindings/play-with-shell.html
用mahout设置火花。
1转到解压缩Spark的目录并键入sbin / start-all.sh以在本地启动Spark
2打开浏览器,将其指向http://localhost:8080/以检查Spark是否已成功启动。复制页面顶部的spark master的url(以spark://开头)
3定义以下环境变量: export MAHOUT_HOME = [签出Mahout的目录] 导出SPARK_HOME = [解压缩Spark的目录] export MASTER = [Spark master的url]
4最后,转到你解压缩Mahout的目录并输入bin / mahout spark-shell,你应该看到shell启动并得到提示mahout>。查看常见问题解答以进一步排查故障。
答案 1 :(得分:0)
请访问link。它使用新的mahout 0.10并使用spark服务器。