我们需要启动spark来运行pyspark吗?

时间:2019-05-06 03:52:46

标签: apache-spark pyspark

这可能是一个新手问题。这是我的情况。

我在机器上安装了火花。我尚未启动它(使用sbin / start-all.sh或sbin文件夹中的任何其他脚本)。 然后我打开pyspark(使用bin / pyspark),它启动时没有任何错误。 我尝试运行示例程序:

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count() 

工作正常,没有任何错误。

问题1:执行pyspark / spark-shell程序是否不需要火花?

问题2:还是只有Spark提交需要火花才能启动?

请澄清以防万一。

2 个答案:

答案 0 :(得分:0)

By default Spark runs in local[*] mode,它提供了嵌入在单个JVM中的非分布式测试和开发环境。

这适用于spark-shellpysparkspark-submit和其他选项。

sbin脚本通常在分布式环境中用于启动Spark自己的standalone cluster manager。如果使用这些,还必须正确配置Spark主URL。

但是,在众多受支持的(和第三方)集群管理器中,只有一个可以与Spark一起使用。

答案 1 :(得分:0)

Pyspark是Spark的Python API,可让您绑定Python的简单性和Apache Spark的功能来驯服大数据。要使用PySpark,您将必须在计算机上安装python和Apache spark。使用pyspark时,运行pyspark就足够了。

要在您的计算机上本地运行pyspark:

pyspark2 --master本地[*]

请参阅此链接以在Windows上安装pyspark。 https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c