我必须将python中的一些应用程序发送到Apache Spark集群。给出了一个Clustermanager和一些工作节点,其中包含将应用程序发送到的地址。
我的问题是,如何在我的本地计算机上设置和配置Spark,以便将要处理的数据发送到群集?
我正在使用Ubuntu 16.xx并且已经安装了java和scala。我已经搜索了inet,但最常见的是如何构建群集或一些旧的建议如何做,这已经过时了。
答案 0 :(得分:0)
你的问题不清楚。如果数据在本地计算机上,则应首先将数据复制到HDFS文件系统上的群集。 Spark可以在YARN的三种模式下工作(你使用YARN还是MESOS?):集群,客户端和独立。您正在寻找的是客户端模式或群集模式。但是,如果要从本地计算机启动应用程序,请使用客户端模式。如果您具有SSH访问权限,则可以同时使用这两种访问权限。
最简单的方法是直接在群集上复制代码(如果已正确配置),然后使用./spark-submit
脚本启动应用程序,并提供用作参数的类。它适用于python脚本和java / scala类(我只使用python,所以我不知道)
答案 1 :(得分:0)
我假设您正在运行远程群集,并且您可以从远程服务器本身提交作业。你需要的是ssh tuneling。请记住,它不适用于aws。
ssh -f user@personal-server.com -L 2000:personal-server.com:7077 -N
在此处阅读更多内容:http://www.revsys.com/writings/quicktips/ssh-tunnel.html