在Google进行了如此多的搜索后,我正在寻求帮助,但仍然无法解决我的问题。
我正在尝试在python 3.6.7和IDE中安装pyspark软件包。我正在使用anaconda(64位)并在spyder中运行我的代码,并具有10专业版window 10操作系统。
我关注了几乎所有网站,并尝试执行相同的操作来安装pyspark,但在设置SparkContext(“ local”,“ SparkFile App”)时仍然出现错误。在我看来,这是Java错误,但不知道该怎么办。
下面是我要安装的文件夹结构
对于Java
C:\Program Files\Java\jdk1.8.0_191
对于Spark(spark-2.4.0-bin-hadoop2.7)
C:\spark
对于Python
C:\Users\user\Anaconda3
我设置的环境
SPARK_HOME=C:\spark
HADOOP_HOME=C:\spark
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_191
PYSPARK_DRIVER_PYTHON=jupyter
PYSPARK_DRIVER_PYTHON_OPTS=notebook
PYTHONPATH=C:\Users\user\Anaconda3\python.exe
PATH=C:\Users\user\Anaconda3;C:\Users\user\Anaconda3\Scripts;C:\Users\user\Anaco
nda3\Library\bin;C:\spark\bin;C:\Program Files\Java\jdk1.8.0_191\bin;C:\spark\python\lib\py4j-0.10.7-src;C:\spark\python\lib\pyspark;%SPARK_HOME%\python\lib\py4j;%SPARK_HOME%\python\lib\pyspark;C:\Users\user\Anaconda3\python.exe
我想我已经尝试了网站上几乎所有可用的方法,并且上面给出的设置是我最后的努力。我的路径和环境可能有误,但不确定正确的方法。
如果有人帮助我理解外行语言,那将是非常有用的帮助。
提前感谢您的宝贵时间。
编辑: 以下是我遇到的错误
from pyspark import SparkContext
sc = SparkContext("local", "count app")
回溯(最近通话最近一次):
File "<ipython-input-1-520a7abb0d94>", line 2, in <module>
sc = SparkContext("local", "count app")
File "C:\Users\user\Anaconda3\lib\site-packages\pyspark\context.py", line 118, in __init__
conf, jsc, profiler_cls)
File "C:\Users\user\Anaconda3\lib\site-packages\pyspark\context.py", line 188, in _do_init
self._javaAccumulator = self._jvm.PythonAccumulatorV2(host, port)
File "C:\Users\user\Anaconda3\lib\site-packages\py4j\java_gateway.py", line 1525, in __call__
answer, self._gateway_client, None, self._fqn)
File "C:\Users\user\Anaconda3\lib\site-packages\py4j\protocol.py", line 332, in get_return_value
format(target_id, ".", name, value))
Py4JError: An error occurred while calling
None.org.apache.spark.api.python.PythonAccumulatorV2. Trace:
py4j.Py4JException: Constructor
org.apache.spark.api.python.PythonAccumulatorV2([class
java.lang.String, class java.lang.Integer]) does not exist
at py4j.reflection.ReflectionEngine.getConstructor(ReflectionEngine.java:179)
at py4j.reflection.ReflectionEngine.getConstructor(ReflectionEngine.java:196)
at py4j.Gateway.invoke(Gateway.java:237)
at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
at py4j.GatewayConnection.run(GatewayConnection.java:238)
at java.lang.Thread.run(Thread.java:748)