我已经使用以下方式独立/本地(在Windows上)安装了PySpark:
pip install pyspark
令我有些惊讶的是,我已经可以在命令行中运行pyspark
或在Jupyter Notebook中使用它,并且它不需要正确的Spark安装(例如,我不必执行此步骤中的大多数步骤)教程https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c)。
我遇到的大多数教程都需要“在安装PySpark之前先安装Spark”。这与我的观点有关,即PySpark基本上是Spark的包装。但也许我在这里错了-有人可以解释:
sbin
文件夹,其中包含例如用于启动历史记录服务器的脚本)答案 0 :(得分:5)
As of v2.2,执行pip install pyspark
将安装Spark。
如果您要使用Pyspark,显然这是最简单的入门方法。
在我的系统上,Spark安装在虚拟环境(miniconda)中,位于lib/python3.6/site-packages/pyspark/jars
答案 1 :(得分:1)
pip安装的PySpark是完整Spark的子文件夹。您可以在spark-3.0.0-bin-hadoop3.2/python/pyspark
中找到大多数PySpark python文件。因此,如果您想使用Java或scala界面,并使用hadoop部署分布式系统,则必须从Apache Spark下载完整的Spark并进行安装。
答案 2 :(得分:0)
PySpark 安装了 Spark。如果通过 pip3 安装,您可以使用 pip3 show pyspark
找到它。前任。对我来说是在 ~/.local/lib/python3.8/site-packages/pyspark
。
这是一个 standalone configuration,因此它不能像完整的 Spark 安装一样用于管理集群。