Apache-spark - 在Windows上启动pyspark时出错

时间:2017-05-13 21:37:29

标签: python apache-spark pyspark

我正试图在Windows上运行pyspark。但是,我收到以下错误:

c:\spark>pyspark
Python 3.6.0 |Anaconda 4.3.1 (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC 
v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Traceback (most recent call last):
File "C:\spark\bin\..\python\pyspark\shell.py", line 38, in <module>
   SparkContext._ensure_initialized()
File "C:\spark\python\pyspark\context.py", line 259, in _ensure_initialized
   SparkContext._gateway = gateway or launch_gateway(conf)
File "C:\spark\python\pyspark\java_gateway.py", line 80, in launch_gateway
   proc = Popen(command, stdin=PIPE, env=env)
File "C:\Users\shuzhe\Anaconda3\lib\subprocess.py", line 707, in __init__
   restore_signals, start_new_session)
File "C:\Users\shuzhe\Anaconda3\lib\subprocess.py", line 990, in _execute_child
startupinfo)
PermissionError: [WinError 5] Access is denied

我已搜索了几个小时,但我找不到解决此问题的方法。任何帮助是极大的赞赏!

谢谢!

2 个答案:

答案 0 :(得分:0)

如果您使用的是spark 2.1,则必须切换到spark 2.1.1。python 3.6存在一个错误,现在在2.1.1中得到解决。

https://issues.apache.org/jira/browse/SPARK-19019 \

我在Windows上遇到了python 3.6和3.5以及spark 2.1的相同问题,我切换到了anaconda python 2.7,现在它工作正常。

答案 1 :(得分:0)

嗨,我遇到了同样的问题。我放弃了先前使用SPARK_HOME创建的C:\spark-2.4.3-bin-hadoop2.7文件夹(在我的情况下为cygwin tar),并尝试再次从spark-2.4.3-bin-hadoop2.7.tgz解压缩该文件夹,但是这次使用用7zip代替cygwin tar,然后问题就解决了。请注意,使用7zip的拆包过程分两步完成,首先从...tar中提取...tgz,然后从...tar

中提取整个目录树。

Internet上的其他一些讨论(例如here)表明,问题是由于cygwin tar的许可错误。这个解释与我上面测试和体验的一致。