这可能是一个新手问题。这是我的情况。
我在机器上安装了火花。我尚未启动它(使用sbin / start-all.sh或sbin文件夹中的任何其他脚本)。 然后我打开pyspark(使用bin / pyspark),它启动时没有任何错误。 我尝试运行示例程序:
>>> var=sc.textFile('/home/rushikesh/sam.txt')
>>> var.count()
工作正常,没有任何错误。
问题1:执行pyspark / spark-shell程序是否不需要火花?
问题2:还是只有Spark提交需要火花才能启动?
请澄清以防万一。
答案 0 :(得分:0)
By default Spark runs in local[*]
mode,它提供了嵌入在单个JVM中的非分布式测试和开发环境。
这适用于spark-shell
,pyspark
,spark-submit
和其他选项。
sbin
脚本通常在分布式环境中用于启动Spark自己的standalone cluster manager。如果使用这些,还必须正确配置Spark主URL。
但是,在众多受支持的(和第三方)集群管理器中,只有一个可以与Spark一起使用。
答案 1 :(得分:0)
Pyspark是Spark的Python API,可让您绑定Python的简单性和Apache Spark的功能来驯服大数据。要使用PySpark,您将必须在计算机上安装python和Apache spark。使用pyspark时,运行pyspark就足够了。
要在您的计算机上本地运行pyspark:
pyspark2 --master本地[*]
请参阅此链接以在Windows上安装pyspark。 https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c