通过给定的Cluster配置Spark

时间:2016-09-16 06:41:49

标签: java python scala apache-spark pyspark

我必须将python中的一些应用程序发送到Apache Spark集群。给出了一个Clustermanager和一些工作节点,其中包含将应用程序发送到的地址。

我的问题是,如何在我的本地计算机上设置和配置Spark,以便将要处理的数据发送到群集?

我正在使用Ubuntu 16.xx并且已经安装了java和scala。我已经搜索了inet,但最常见的是如何构建群集或一些旧的建议如何做,这已经过时了。

2 个答案:

答案 0 :(得分:0)

你的问题不清楚。如果数据在本地计算机上,则应首先将数据复制到HDFS文件系统上的群集。 Spark可以在YARN的三种模式下工作(你使用YARN还是MESOS?):集群,客户端和独立。您正在寻找的是客户端模式或群集模式。但是,如果要从本地计算机启动应用程序,请使用客户端模式。如果您具有SSH访问权限,则可以同时使用这两种访问权限。

最简单的方法是直接在群集上复制代码(如果已正确配置),然后使用./spark-submit脚本启动应用程序,并提供用作参数的类。它适用于python脚本和java / scala类(我只使用python,所以我不知道)

答案 1 :(得分:0)

我假设您正在运行远程群集,并且您可以从远程服务器本身提交作业。你需要的是ssh tuneling。请记住,它不适用于aws。

ssh -f user@personal-server.com -L 2000:personal-server.com:7077 -N

在此处阅读更多内容:http://www.revsys.com/writings/quicktips/ssh-tunnel.html