PySpark是否可以在没有Spark的情况下工作?

时间:2018-08-07 13:37:29

标签: apache-spark pyspark

我已经使用以下方式独立/本地(在Windows上)安装了PySpark:

pip install pyspark

令我有些惊讶的是,我已经可以在命令行中运行pyspark或在Jupyter Notebook中使用它,并且它不需要正确的Spark安装(例如,我不必执行此步骤中的大多数步骤)教程https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c)。

我遇到的大多数教程都需要“在安装PySpark之前先安装Spark”。这与我的观点有关,即PySpark基本上是Spark的包装。但也许我在这里错了-有人可以解释:

  • 这两种技术之间的确切联系是什么?
  • 为什么安装PySpark足以使其运行?它实际上在引擎盖下安装了Spark吗?如果是,在哪里?
  • 如果您仅安装PySpark,是否会错过某些内容(例如,我找不到sbin文件夹,其中包含例如用于启动历史记录服务器的脚本)

3 个答案:

答案 0 :(得分:5)

As of v2.2,执行pip install pyspark将安装Spark。

如果您要使用Pyspark,显然这是最简单的入门方法。

在我的系统上,Spark安装在虚拟环境(miniconda)中,位于lib/python3.6/site-packages/pyspark/jars

答案 1 :(得分:1)

pip安装的PySpark是完整Spark的子文件夹。您可以在spark-3.0.0-bin-hadoop3.2/python/pyspark中找到大多数PySpark python文件。因此,如果您想使用Java或scala界面,并使用hadoop部署分布式系统,则必须从Apache Spark下载完整的Spark并进行安装。

答案 2 :(得分:0)

PySpark 安装了 Spark。如果通过 pip3 安装,您可以使用 pip3 show pyspark 找到它。前任。对我来说是在 ~/.local/lib/python3.8/site-packages/pyspark

这是一个 standalone configuration,因此它不能像完整的 Spark 安装一样用于管理集群。