我正在尝试以此方式安装pyspark:
python setup.py install
我收到此错误:
Could not import pypandoc - required to package PySpark
pypandoc已经安装
任何想法如何安装pyspark?
答案 0 :(得分:0)
您需要使用findspark或spark-submit才能使用pyspark。安装scala和java后,下载apache spark并将其放在一些文件夹中。然后尝试以下两种方法: 在外壳中:
pip install findspark
使用代码:
import findspark
findspark.init('pathToSpark')
或在shell中提交
/path/to/spark/bin/spark-submit somecode.py
答案 1 :(得分:0)
为jupyter笔记本安装PySpark API的步骤:
转到此站点https://spark.apache.org/downloads.html以下载最新的spark。该文件将以.tgz格式下载。 将此tgz文件解压缩到要安装PySpark的目录中。
解压缩tgz文件后,您将需要下载hadoop,因为Apache spark需要Hadoop, 因此,请从https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe下载hadoop, 将下载一个文件-'winutils.exe'。将此exe文件复制到spark(spark-2.2.0-bin-hadoop2.7 / bin)的“ bin /”目录中
如果已安装anaconda,则C:\ Users \中将存在.condarc文件,将其打开,然后将ssl_verify从true更改为false。 这将帮助您直接从提示符安装python库。(如果您的网络受到限制)
打开anaconda提示符并键入'conda install findspark'以安装findspark python模块。如果无法安装,请转到此链接 https://github.com/minrk/findspark并下载ZIP,解压缩并打开anaconda提示,然后转到提取的路径并运行“ python setup.py install”。
创建4个用户变量并将Spark路径添加到“ PATH”系统变量后,打开jupyter笔记本并运行以下代码:
import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext("local", "First App")
sqlContext = SQLContext(sc)
如果没有出现任何错误,则说明安装已成功完成。
答案 2 :(得分:0)
如果您使用的是窗口,请执行以下步骤:
1)通过链接https://www.oracle.com/technetwork/java/javase/downloads/index.html
2)设置环境变量$JAVA_HOME= /path/where/you/installed/jdk
比在PATH=%JAVA_HOME/bin
3)从链接下载火花:-https://spark.apache.org/downloads.html 该文件以Zip格式提取,文件名类似于spark-2.3.1-bin-hadoop2.7.tgz,将该文件夹移至C目录。并设置环境变量
SPARK_HOME=/path/of the /spark
4)从链接中下载scala ide:-http://scala-ide.org/
解压缩文件并将Eclipse文件夹复制到C:目录
5)现在打开cmd并输入spark-shell
它将为您打开Scala外壳。
答案 3 :(得分:0)
2018版本-
在Windows 10 PYSPARK
上使用JUPYTER-NOTEBOOK
安装ANACONDA NAVIGATOR
。
下载软件包
1)spark-2.2.0-bin-hadoop2.7.tgz Download
2)Java JDK 8版本Download
3)Anaconda v 5.2 Download
4)scala-2.12.6.msi Download
5)hadoop v2.7.1 Download
创建 SPARK 文件夹并解压缩Hadoop
,spark
和
使用 scala-2.12.6.msi 在同一目录中安装Scala
。目录结构应为
It will look like this
注意:在安装SCALA期间,指定C:/ Spark文件夹
现在设置Windows环境变量:
HADOOP_HOME=C:\spark\hadoop
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_151
SCALA_HOME=C:\spark\scala\bin
SPARK_HOME=C:\spark\spark\bin
PYSPARK_PYTHON=C:\Users\user\Anaconda3\python.exe
PYSPARK_DRIVER_PYTHON=C:\Users\user\Anaconda3\Scripts\jupyter.exe
PYSPARK_DRIVER_PYTHON_OPTS=notebook
立即选择火花路径:
点击编辑并添加
在变量“ Path” Windows中添加“ C:\ spark \ spark \ bin ”
就这样,您的浏览器将使用Juypter localhost弹出
检查PySpark
是否正常工作!
输入简单代码并运行
from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)
答案 4 :(得分:0)
我遇到了相同的问题,并如下解决 在安装pyspark之前先安装pypandoc
pip install pypandoc
pip install pyspark
答案 5 :(得分:0)
从2.2版开始,您可以使用pip直接安装pyspark
pip install pyspark
答案 6 :(得分:0)
尝试将Python3与pip3 install pypandoc
一起安装pypandoc。