无法安装pyspark

时间:2018-07-24 13:46:59

标签: python pyspark

我正在尝试以此方式安装pyspark:

python setup.py install

我收到此错误:

Could not import pypandoc - required to package PySpark

pypandoc已经安装

任何想法如何安装pyspark?

7 个答案:

答案 0 :(得分:0)

您需要使用findspark或spark-submit才能使用pyspark。安装scala和java后,下载apache spark并将其放在一些文件夹中。然后尝试以下两种方法: 在外壳中:

pip install findspark

使用代码:

import findspark
findspark.init('pathToSpark')

或在shell中提交

/path/to/spark/bin/spark-submit somecode.py

答案 1 :(得分:0)

为jupyter笔记本安装PySpark API的步骤:

  1. 转到此站点https://spark.apache.org/downloads.html以下载最新的spark。该文件将以.tgz格式下载。 将此tgz文件解压缩到要安装PySpark的目录中。

  2. 解压缩tgz文件后,您将需要下载hadoop,因为Apache spark需要Hadoop, 因此,请从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop, 将下载一个文件-'winutils.exe'。将此exe文件复制到spark(spark-2.2.0-bin-hadoop2.7 / bin)的“ bin /”目录中

  3. 如果已安装anaconda,则C:\ Users \中将存在.condarc文件,将其打开,然后将ssl_verify从true更改为false。 这将帮助您直接从提示符安装python库。(如果您的网络受到限制)

  4. 打开anaconda提示符并键入'conda install findspark'以安装findspark python模块。如果无法安装,请转到此链接 https://github.com/minrk/findspark并下载ZIP,解压缩并打开anaconda提示,然后转到提取的路径并运行“ python setup.py install”。

  5. 打开ThisPC >>属性>>高级系统设置(您需要具有管理员权限)。单击环境变量,然后 添加新的用户环境变量。 Environment variables to add

  6. 创建4个用户变量并将Spark路径添加到“ PATH”系统变量后,打开jupyter笔记本并运行以下代码:

    import findspark
    findspark.init()
    import pyspark
    from pyspark.sql import SQLContext
    from pyspark import SparkContext    
    
    sc = SparkContext("local", "First App")
    sqlContext = SQLContext(sc)
    

    如果没有出现任何错误,则说明安装已成功完成。

答案 2 :(得分:0)

如果您使用的是窗口,请执行以下步骤:
1)通过链接https://www.oracle.com/technetwork/java/javase/downloads/index.html

在计算机中安装Jdk

2)设置环境变量$JAVA_HOME= /path/where/you/installed/jdk 比在PATH=%JAVA_HOME/bin

中添加路径

3)从链接下载火花:-https://spark.apache.org/downloads.html 该文件以Zip格式提取,文件名类似于spark-2.3.1-bin-hadoop2.7.tgz,将该文件夹移至C目录。并设置环境变量

SPARK_HOME=/path/of the /spark 

4)从链接中下载scala ide:-http://scala-ide.org/ 解压缩文件并将Eclipse文件夹复制到C:目录

5)现在打开cmd并输入spark-shell 它将为您打开Scala外壳。

答案 3 :(得分:0)

2018版本-

在Windows 10 PYSPARK上使用JUPYTER-NOTEBOOK安装ANACONDA NAVIGATOR

步骤1

下载软件包

1)spark-2.2.0-bin-hadoop2.7.tgz Download

2)Java JDK 8版本Download

3)Anaconda v 5.2 Download

4)scala-2.12.6.msi Download

5)hadoop v2.7.1 Download

STEP 2

C:/ 驱动器中

创建 SPARK 文件夹并解压缩Hadoopspark和 使用 scala-2.12.6.msi 在同一目录中安装Scala。目录结构应为 It will look like this

注意:在安装SCALA期间,指定C:/ Spark文件夹

步骤3

现在设置Windows环境变量:

  1. HADOOP_HOME=C:\spark\hadoop

  2. JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151

  3. SCALA_HOME=C:\spark\scala\bin

  4. SPARK_HOME=C:\spark\spark\bin

  5. PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe

  6. PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe

  7. PYSPARK_DRIVER_PYTHON_OPTS=notebook

  8. 立即选择火花路径

    点击编辑并添加

    在变量“ Path” Windows中添加“ C:\ spark \ spark \ bin

步骤4

  • 在要存储Jupyter-Notebook输出和文件的文件夹中创建
  • 之后,打开Anaconda命令提示符,并 cd文件夹名称
  • 然后输入 Pyspark

就这样,您的浏览器将使用Juypter localhost弹出

步骤5

检查PySpark是否正常工作!

输入简单代码并运行

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)

答案 4 :(得分:0)

我遇到了相同的问题,并如下解决 在安装pyspark之前先安装pypandoc

pip install pypandoc
pip install pyspark

答案 5 :(得分:0)

从2.2版开始,您可以使用pip直接安装pyspark

pip install pyspark

答案 6 :(得分:0)

尝试将Python3与pip3 install pypandoc一起安装pypandoc。