Question

这可能是一个新手问题。这是我的情况。

我在机器上安装了火花。我尚未启动它（使用sbin / start-all.sh或sbin文件夹中的任何其他脚本）。然后我打开pyspark（使用bin / pyspark），它启动时没有任何错误。我尝试运行示例程序：

>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count()

工作正常，没有任何错误。

问题1：执行pyspark / spark-shell程序是否不需要火花？

问题2：还是只有Spark提交需要火花才能启动？

请澄清以防万一。

Answer 1

By default Spark runs in local[*] mode，它提供了嵌入在单个JVM中的非分布式测试和开发环境。

这适用于spark-shell，pyspark，spark-submit和其他选项。

sbin脚本通常在分布式环境中用于启动Spark自己的standalone cluster manager。如果使用这些，还必须正确配置Spark主URL。

但是，在众多受支持的（和第三方）集群管理器中，只有一个可以与Spark一起使用。

Answer 2

Pyspark是Spark的Python API，可让您绑定Python的简单性和Apache Spark的功能来驯服大数据。要使用PySpark，您将必须在计算机上安装python和Apache spark。使用pyspark时，运行pyspark就足够了。

要在您的计算机上本地运行pyspark：

pyspark2 --master本地[*]