Question

我是pyspark的新手。我在Windows机器上安装了Pyspark

我从Spark download url下载了Apache Spark

我在环境变量中设置了HADOOP_HOME和SPARK_HOME

我的SPARK_HOME = C：\ spark \ spark-2.4.4-bin-hadoop2.7

我的HADOOP_HOME = C：\ spark \ spark-2.4.4-bin-hadoop2.7

但是当我在命令提示符下输入pyspark时，我会得到

系统找不到指定的路径。

即使我要进入bin目录并执行pyspark，它也会引发相同的异常

不确定我在这里错过了什么。请在这里帮助我

Answer 1

设置如下路径：

Java

JAVA_HOME = C：\ Program Files \ Java \ jdk1.8.0_73

PATH = C：\ Program Files \ Java \ jdk1.8.0_73 \ bin

创建一个文件夹Hadoop / bin并将winutils.exe文件放在bin文件夹中。

HADOOP_HOME = C：\ Hadoop

PATH = C：\ Hadoop \ bin

下载任何Spark版本（例如spark-2.4.4-bin-hadoop2.7）

SPARK_HOME = C：\ software \ spark-2.3.1-bin-hadoop2.7

PATH = C：\ software \ spark-2.3.1-bin-hadoop2.7 \ bin

Answer 2

安装spark的最简单方法是使用python findspark

pip install findspark

import findspark

finspark.init('\path\to\extracted\binaries\folder')

import pyspark

Answer 3

我遇到了同样的问题，做了多次研究，最后我发现我有 jdk 和 jdk1.8.0_261 和 JRE jre1.8.0_271

作为解决方案，我卸载了jdk和jre，然后安装了jdk1.8.0_261，基本上安装了相同的版本 jdk1.8.0_261 jre1.8.0_261

解决了问题。

Answer 4

尝试定位pyspark路径然后导出该路径，然后安装findSpark包，它会完成剩下的工作，例如假设我的pyspark路径是：“/usr/spark-2.4.4/python /pyspark/" 所以我要做的是：

!export SPARK_HOME="/usr/spark-2.4.4/python/pyspark/"
!pip install findspark

import findspark
findspark.init()
from pyspark.sql import SparkSession

Answer 5

尝试添加此代码段。

import os
import sys
os.environ['HADOOP_HOME'] = "Your_Hadoop_Home_Path"
# os.environ['HADOOP_HOME'] = "~file_path~\Hadoop\hadoop-3.x.x"

#这里实际做的是改变HADOOP_HOME环境路径