几周以来,我试图通过远程访问或连接到YARN集群的pyspark shell来提交python脚本。
我是HADOOP世界的新手。我想要的是在外部HADOOP集群上的本地shell中提交spark脚本。
我的情况:外部hadoop YARN群集。可以访问重要的端口。我有Windows 7 64位/ Python 2.7.9 64位/ Spark 1.4.1。 HADOOP集群正在运行,没有任何问题。
我的问题:在HADOOP集群上通过远程访问提交python脚本不起作用。
如果我尝试 spark-submit --master yarn-cluster --num-executors 2 --driver-memory 512m --executor-memory 512m --executor-cores 4 ... example.py
它说
Error: Cluster deploy mode is not applicable to Spark shells.
Exception: Java gateway process exited before sending the driver its port number
据我所知,我认为这个问题是
如何正确设置yarn-config以将本地客户端(不是群集的一部分)连接到外部YARN群集。
答案 0 :(得分:0)
SPARK VERSION 1.6.0(这是写这篇文章的当前版本)。
Python代码无法在YARN群集模式下执行。 Python只能在本机spark集群上以集群模式执行。
您可以切换到使用spark集群,或者在Java或Scala中重新实现代码。