Pyspark系统找不到指定的路径

时间:2020-01-28 02:57:09

标签: python apache-spark pyspark

我是pyspark的新手。我在Windows机器上安装了Pyspark

我从Spark download url下载了Apache Spark

我在环境变量中设置了HADOOP_HOME和SPARK_HOME

path variable

我的SPARK_HOME = C:\ spark \ spark-2.4.4-bin-hadoop2.7

我的HADOOP_HOME = C:\ spark \ spark-2.4.4-bin-hadoop2.7

但是当我在命令提示符下输入pyspark时,我会得到

系统找不到指定的路径。

即使我要进入bin目录并执行pyspark,它也会引发相同的异常

不确定我在这里错过了什么。请在这里帮助我

5 个答案:

答案 0 :(得分:2)

设置如下路径:

Java

JAVA_HOME = C:\ Program Files \ Java \ jdk1.8.0_73

PATH = C:\ Program Files \ Java \ jdk1.8.0_73 \ bin

Hadoop

创建一个文件夹Hadoop / bin并将winutils.exe文件放在bin文件夹中。

HADOOP_HOME = C:\ Hadoop

PATH = C:\ Hadoop \ bin

Spark

下载任何Spark版本(例如spark-2.4.4-bin-hadoop2.7)

SPARK_HOME = C:\ software \ spark-2.3.1-bin-hadoop2.7

PATH = C:\ software \ spark-2.3.1-bin-hadoop2.7 \ bin

答案 1 :(得分:0)

安装spark的最简单方法是使用python findspark

pip install findspark

import findspark

finspark.init('\path\to\extracted\binaries\folder')

import pyspark

答案 2 :(得分:0)

我遇到了同样的问题,做了多次研究,最后我发现我有 jdk 和 jdk1.8.0_261 和 JRE jre1.8.0_271

作为解决方案,我卸载了jdk和jre,然后安装了jdk1.8.0_261,基本上安装了相同的版本 jdk1.8.0_261 jre1.8.0_261

解决了问题。

答案 3 :(得分:0)

尝试定位pyspark路径然后导出该路径,然后安装findSpark包,它会完成剩下的工作,例如假设我的pyspark路径是:“/usr/spark-2.4.4/python /pyspark/" 所以我要做的是:

!export SPARK_HOME="/usr/spark-2.4.4/python/pyspark/"
!pip install findspark

import findspark
findspark.init()
from pyspark.sql import SparkSession 

答案 4 :(得分:-1)

尝试添加此代码段。

import os
import sys
os.environ['HADOOP_HOME'] = "Your_Hadoop_Home_Path"
# os.environ['HADOOP_HOME'] = "~file_path~\Hadoop\hadoop-3.x.x"

#这里实际做的是改变HADOOP_HOME环境路径