如何在远程集群中执行PySpark代码?

时间:2019-04-23 11:02:52

标签: python pyspark

我正在使用带有YARN的远程Spark集群。我正在尝试在Windows中执行此代码,并发送要在Spark集群中执行的代码:

from pyspark import SparkContext, SparkConf
from operator import add

conf = SparkConf().setAppName("WordCount").setMaster("yarn-cluster")

sc = SparkContext(conf = conf)
data = sc.parallelize(list("Hello World"))
counts = data.map(lambda x: (x, 1)).reduceByKey(add).sortBy(lambda x:     x[1], ascending=False).collect()
for (word, count) in counts:
print("{}: {}".format(word, count))
sc.stop()

我在Windows客户端中有conf文件,并创建了所需的PATH变量,但出现此错误:

Exception in thread "main" org.apache.spark.SparkException: Cluster deploy mode is not applicable to Spark shells.

看来您只能以这种方式在客户端模式下运行。

  • 这意味着要能够从Windows执行代码,我需要进行火花提交吗?

  • 我要从中调用Spark来执行代码的Windows客户端中需要安装Spark的哪些元素?

0 个答案:

没有答案