Question

我正在尝试以此方式安装pyspark：

python setup.py install

我收到此错误：

Could not import pypandoc - required to package PySpark

pypandoc已经安装

任何想法如何安装pyspark？

Answer 1

您需要使用findspark或spark-submit才能使用pyspark。安装scala和java后，下载apache spark并将其放在一些文件夹中。然后尝试以下两种方法：在外壳中：

pip install findspark

使用代码：

import findspark
findspark.init('pathToSpark')

或在shell中提交

/path/to/spark/bin/spark-submit somecode.py

Answer 2

为jupyter笔记本安装PySpark API的步骤：

转到此站点https://spark.apache.org/downloads.html以下载最新的spark。该文件将以.tgz格式下载。将此tgz文件解压缩到要安装PySpark的目录中。
解压缩tgz文件后，您将需要下载hadoop，因为Apache spark需要Hadoop，因此，请从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop，将下载一个文件-'winutils.exe'。将此exe文件复制到spark（spark-2.2.0-bin-hadoop2.7 / bin）的“ bin /”目录中
如果已安装anaconda，则C：\ Users \中将存在.condarc文件，将其打开，然后将ssl_verify从true更改为false。这将帮助您直接从提示符安装python库。（如果您的网络受到限制）
打开anaconda提示符并键入'conda install findspark'以安装findspark python模块。如果无法安装，请转到此链接 https://github.com/minrk/findspark并下载ZIP，解压缩并打开anaconda提示，然后转到提取的路径并运行“ python setup.py install”。
打开ThisPC >>属性>>高级系统设置（您需要具有管理员权限）。单击环境变量，然后添加新的用户环境变量。

创建4个用户变量并将Spark路径添加到“ PATH”系统变量后，打开jupyter笔记本并运行以下代码：

import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
from pyspark import SparkContext    

sc = SparkContext("local", "First App")
sqlContext = SQLContext(sc)

如果没有出现任何错误，则说明安装已成功完成。

Answer 3

如果您使用的是窗口，请执行以下步骤：
1）通过链接https://www.oracle.com/technetwork/java/javase/downloads/index.html

在计算机中安装Jdk

2）设置环境变量$JAVA_HOME= /path/where/you/installed/jdk 比在PATH=%JAVA_HOME/bin

中添加路径

3）从链接下载火花：-https://spark.apache.org/downloads.html 该文件以Zip格式提取，文件名类似于spark-2.3.1-bin-hadoop2.7.tgz，将该文件夹移至C目录。并设置环境变量

SPARK_HOME=/path/of the /spark

4）从链接中下载scala ide：-http://scala-ide.org/ 解压缩文件并将Eclipse文件夹复制到C：目录

5）现在打开cmd并输入spark-shell 它将为您打开Scala外壳。

Answer 4

2018版本-

在Windows 10 PYSPARK上使用JUPYTER-NOTEBOOK安装ANACONDA NAVIGATOR。

步骤1

下载软件包

1）spark-2.2.0-bin-hadoop2.7.tgz Download

2）Java JDK 8版本Download

3）Anaconda v 5.2 Download

4）scala-2.12.6.msi Download

5）hadoop v2.7.1 Download

STEP 2

在 C：/ 驱动器中

创建 SPARK 文件夹并解压缩Hadoop，spark和使用 scala-2.12.6.msi 在同一目录中安装Scala。目录结构应为 It will look like this

注意：在安装SCALA期间，指定C：/ Spark文件夹

步骤3

现在设置Windows环境变量：

HADOOP_HOME=C:\spark\hadoop
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151
SCALA_HOME=C:\spark\scala\bin
SPARK_HOME=C:\spark\spark\bin
PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe
PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe
PYSPARK_DRIVER_PYTHON_OPTS=notebook
立即选择火花路径：

点击编辑并添加

在变量“ Path” Windows中添加“ C：\ spark \ spark \ bin ”

步骤4

在要存储Jupyter-Notebook输出和文件的文件夹中创建
之后，打开Anaconda命令提示符，并 cd文件夹名称
然后输入 Pyspark

就这样，您的浏览器将使用Juypter localhost弹出

步骤5

检查PySpark是否正常工作！

输入简单代码并运行

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)

Answer 5

我遇到了相同的问题，并如下解决在安装pyspark之前先安装pypandoc

pip install pypandoc
pip install pyspark

Answer 6

从2.2版开始，您可以使用pip直接安装pyspark

pip install pyspark

Answer 7

尝试将Python3与pip3 install pypandoc一起安装pypandoc。

无法安装pyspark

7 个答案:

步骤1

STEP 2

步骤3

步骤4

步骤5