用于生产的Spark安装,是否进行pip安装?

时间:2020-01-27 21:33:37

标签: apache-spark pyspark pip

我想安装Pyspark 2.4.4。我已经看到可以下载Spark软件包或使用pip install。我只需要Pyspark,两种安装方式都一样吗?

1 个答案:

答案 0 :(得分:1)

您可以执行python pip install pyspark,但是它没有Hadoop二进制文件,这对于火花正常运行是必需的。

最简单的安装方法是使用python findspark

从Hadoop二进制文件随附的火花website下载.tgz文件

pip install findspark

在Python中:

import findspark

finspark.init('\path\to\extracted\binaries\folder')

import pyspark