我是pyspark的新手。我在Windows机器上安装了Pyspark
我从Spark download url下载了Apache Spark
我在环境变量中设置了HADOOP_HOME和SPARK_HOME
我的SPARK_HOME = C:\ spark \ spark-2.4.4-bin-hadoop2.7
我的HADOOP_HOME = C:\ spark \ spark-2.4.4-bin-hadoop2.7
但是当我在命令提示符下输入pyspark时,我会得到
系统找不到指定的路径。
即使我要进入bin目录并执行pyspark,它也会引发相同的异常
不确定我在这里错过了什么。请在这里帮助我
答案 0 :(得分:2)
JAVA_HOME = C:\ Program Files \ Java \ jdk1.8.0_73
PATH = C:\ Program Files \ Java \ jdk1.8.0_73 \ bin
创建一个文件夹Hadoop / bin并将winutils.exe文件放在bin文件夹中。
HADOOP_HOME = C:\ Hadoop
PATH = C:\ Hadoop \ bin
下载任何Spark版本(例如spark-2.4.4-bin-hadoop2.7)
SPARK_HOME = C:\ software \ spark-2.3.1-bin-hadoop2.7
PATH = C:\ software \ spark-2.3.1-bin-hadoop2.7 \ bin
答案 1 :(得分:0)
安装spark的最简单方法是使用python findspark
pip install findspark
import findspark
finspark.init('\path\to\extracted\binaries\folder')
import pyspark
答案 2 :(得分:0)
我遇到了同样的问题,做了多次研究,最后我发现我有 jdk 和 jdk1.8.0_261 和 JRE jre1.8.0_271
作为解决方案,我卸载了jdk和jre,然后安装了jdk1.8.0_261,基本上安装了相同的版本 jdk1.8.0_261 jre1.8.0_261
解决了问题。
答案 3 :(得分:0)
尝试定位pyspark路径然后导出该路径,然后安装findSpark包,它会完成剩下的工作,例如假设我的pyspark路径是:“/usr/spark-2.4.4/python /pyspark/" 所以我要做的是:
!export SPARK_HOME="/usr/spark-2.4.4/python/pyspark/"
!pip install findspark
import findspark
findspark.init()
from pyspark.sql import SparkSession
答案 4 :(得分:-1)
尝试添加此代码段。
import os
import sys
os.environ['HADOOP_HOME'] = "Your_Hadoop_Home_Path"
# os.environ['HADOOP_HOME'] = "~file_path~\Hadoop\hadoop-3.x.x"
#这里实际做的是改变HADOOP_HOME环境路径