Question

我必须将python中的一些应用程序发送到Apache Spark集群。给出了一个Clustermanager和一些工作节点，其中包含将应用程序发送到的地址。

我的问题是，如何在我的本地计算机上设置和配置Spark，以便将要处理的数据发送到群集？

我正在使用Ubuntu 16.xx并且已经安装了java和scala。我已经搜索了inet，但最常见的是如何构建群集或一些旧的建议如何做，这已经过时了。

Answer 1

你的问题不清楚。如果数据在本地计算机上，则应首先将数据复制到HDFS文件系统上的群集。 Spark可以在YARN的三种模式下工作（你使用YARN还是MESOS？）：集群，客户端和独立。您正在寻找的是客户端模式或群集模式。但是，如果要从本地计算机启动应用程序，请使用客户端模式。如果您具有SSH访问权限，则可以同时使用这两种访问权限。

最简单的方法是直接在群集上复制代码（如果已正确配置），然后使用./spark-submit脚本启动应用程序，并提供用作参数的类。它适用于python脚本和java / scala类（我只使用python，所以我不知道）

Answer 2

我假设您正在运行远程群集，并且您可以从远程服务器本身提交作业。你需要的是ssh tuneling。请记住，它不适用于aws。

ssh -f user@personal-server.com -L 2000:personal-server.com:7077 -N

在此处阅读更多内容：http://www.revsys.com/writings/quicktips/ssh-tunnel.html

通过给定的Cluster配置Spark

2 个答案: