conda在Windows 10上安装PySpark后的问题

时间:2017-11-02 20:51:14

标签: apache-spark pyspark conda

从大约一年前的Udemy课程开始,我在我的Windows 10笔记本电脑上安装了PySpark(版本1.1),并将其与Jupyter Notebook一起使用。一年后,我不得不重新安装Anaconda 3等,除了运行spark命令外,一切似乎都运行正常。我使用以下命令安装了Pyspark:conda install -c conda-forge pyspark。现在我尝试使用我的所有Udemy脚本,并得到以下内容:

Exception  Traceback (most recent call last) <ipython-input-5-03dc2d316f89> in <module>()1 sc = SparkSession.builder.appName('Basics').getOrCreate()

~\Anaconda3\lib\site-packages\pyspark\sql\session.py in getOrCreate(self)

167                     for key, value in self._options.items():
168                         sparkConf.set(key, value)
169                     sc = SparkContext.getOrCreate(sparkConf)
170                     # This SparkContext may be an existing one.
171                     for key, value in self._options.items():

我安装了最新的PySpark ver 2.2.0,基本上这个问题带有一系列令人困惑的反应。正如我所指出的那样,我在一年前的Win 10盒子上运行了旧版本的PySpark。

任何想法或提示?

1 个答案:

答案 0 :(得分:2)

来自PyPi或Anaconda的Pyspark(即与pipconda一起安装)包含完整的Pyspark功能;它仅适用于现有集群中的Spark安装,在这种情况下,可能需要avoid downloading the whole Spark distribution locally。来自PyPi docs(此信息也应位于Anaconda Cloud中,但遗憾的是它不是):

  

Spark的Python包装并不是要取代所有的   其他用例。这个Python打包版本的Spark适合   与现有集群交互(无论是Spark独立,YARN还是   Mesos) - 但不包含设置自己的工具   独立的Spark集群。您可以下载完整版Spark   来自Apache Spark downloads page

所以,你应该做的是从上面的链接下载完整的Spark发行版(其中Pyspark是不可或缺的部分)。当然,这正是您过去所做的,因为pip/conda选项最近才在Spark 2.1中可用。