我正试图在Windows上运行pyspark。但是,我收到以下错误:
c:\spark>pyspark
Python 3.6.0 |Anaconda 4.3.1 (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC
v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Traceback (most recent call last):
File "C:\spark\bin\..\python\pyspark\shell.py", line 38, in <module>
SparkContext._ensure_initialized()
File "C:\spark\python\pyspark\context.py", line 259, in _ensure_initialized
SparkContext._gateway = gateway or launch_gateway(conf)
File "C:\spark\python\pyspark\java_gateway.py", line 80, in launch_gateway
proc = Popen(command, stdin=PIPE, env=env)
File "C:\Users\shuzhe\Anaconda3\lib\subprocess.py", line 707, in __init__
restore_signals, start_new_session)
File "C:\Users\shuzhe\Anaconda3\lib\subprocess.py", line 990, in _execute_child
startupinfo)
PermissionError: [WinError 5] Access is denied
我已搜索了几个小时,但我找不到解决此问题的方法。任何帮助是极大的赞赏!
谢谢!
答案 0 :(得分:0)
如果您使用的是spark 2.1,则必须切换到spark 2.1.1。python 3.6存在一个错误,现在在2.1.1中得到解决。
https://issues.apache.org/jira/browse/SPARK-19019 \
我在Windows上遇到了python 3.6和3.5以及spark 2.1的相同问题,我切换到了anaconda python 2.7,现在它工作正常。
答案 1 :(得分:0)
嗨,我遇到了同样的问题。我放弃了先前使用SPARK_HOME
创建的C:\spark-2.4.3-bin-hadoop2.7
文件夹(在我的情况下为cygwin tar
),并尝试再次从spark-2.4.3-bin-hadoop2.7.tgz
解压缩该文件夹,但是这次使用用7zip
代替cygwin tar
,然后问题就解决了。请注意,使用7zip
的拆包过程分两步完成,首先从...tar
中提取...tgz
,然后从...tar
Internet上的其他一些讨论(例如here)表明,问题是由于cygwin tar
的许可错误。这个解释与我上面测试和体验的一致。