无法通过远程在YARN Hadoop集群上启动python脚本

时间:2015-08-21 09:15:21

标签: python hadoop yarn

几周以来,我试图通过远程访问或连接到YARN集群的pyspark shell来提交python脚本。

我是HADOOP世界的新手。我想要的是在外部HADOOP集群上的本地shell中提交spark脚本。

我的情况:外部hadoop YARN群集。可以访问重要的端口。我有Windows 7 64位/ Python 2.7.9 64位/ Spark 1.4.1。 HADOOP集群正在运行,没有任何问题。

我的问题:在HADOOP集群上通过远程访问提交python脚本不起作用。

如果我尝试     spark-submit --master yarn-cluster --num-executors 2 --driver-memory 512m --executor-memory 512m --executor-cores 4 ... example.py

它说

Error: Cluster deploy mode is not applicable to Spark shells.
Exception: Java gateway process exited before sending the driver its port number

据我所知,我认为这个问题是

  
    

如何正确设置yarn-config以将本地客户端(不是群集的一部分)连接到外部YARN群集。

  

1 个答案:

答案 0 :(得分:0)

SPARK VERSION 1.6.0(这是写这篇文章的当前版本)。

Python代码无法在YARN群集模式下执行。 Python只能在本机spark集群上以集群模式执行。

您可以切换到使用spark集群,或者在Java或Scala中重新实现代码。