Question

我已经使用以下方式独立/本地（在Windows上）安装了PySpark：

pip install pyspark

令我有些惊讶的是，我已经可以在命令行中运行pyspark或在Jupyter Notebook中使用它，并且它不需要正确的Spark安装（例如，我不必执行此步骤中的大多数步骤）教程https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c）。

我遇到的大多数教程都需要“在安装PySpark之前先安装Spark”。这与我的观点有关，即PySpark基本上是Spark的包装。但也许我在这里错了-有人可以解释：

这两种技术之间的确切联系是什么？
为什么安装PySpark足以使其运行？它实际上在引擎盖下安装了Spark吗？如果是，在哪里？
如果您仅安装PySpark，是否会错过某些内容（例如，我找不到sbin文件夹，其中包含例如用于启动历史记录服务器的脚本）

Answer 1

As of v2.2，执行pip install pyspark将安装Spark。

如果您要使用Pyspark，显然这是最简单的入门方法。

在我的系统上，Spark安装在虚拟环境（miniconda）中，位于lib/python3.6/site-packages/pyspark/jars

Answer 2

pip安装的PySpark是完整Spark的子文件夹。您可以在spark-3.0.0-bin-hadoop3.2/python/pyspark中找到大多数PySpark python文件。因此，如果您想使用Java或scala界面，并使用hadoop部署分布式系统，则必须从Apache Spark下载完整的Spark并进行安装。

Answer 3

PySpark 安装了 Spark。如果通过 pip3 安装，您可以使用 pip3 show pyspark 找到它。前任。对我来说是在 ~/.local/lib/python3.8/site-packages/pyspark。

这是一个 standalone configuration，因此它不能像完整的 Spark 安装一样用于管理集群。

PySpark是否可以在没有Spark的情况下工作？

3 个答案: