从大约一年前的Udemy课程开始,我在我的Windows 10笔记本电脑上安装了PySpark(版本1.1),并将其与Jupyter Notebook一起使用。一年后,我不得不重新安装Anaconda 3等,除了运行spark命令外,一切似乎都运行正常。我使用以下命令安装了Pyspark:conda install -c conda-forge pyspark
。现在我尝试使用我的所有Udemy脚本,并得到以下内容:
Exception Traceback (most recent call last) <ipython-input-5-03dc2d316f89> in <module>()1 sc = SparkSession.builder.appName('Basics').getOrCreate()
~\Anaconda3\lib\site-packages\pyspark\sql\session.py in getOrCreate(self)
167 for key, value in self._options.items():
168 sparkConf.set(key, value)
169 sc = SparkContext.getOrCreate(sparkConf)
170 # This SparkContext may be an existing one.
171 for key, value in self._options.items():
我安装了最新的PySpark ver 2.2.0,基本上这个问题带有一系列令人困惑的反应。正如我所指出的那样,我在一年前的Win 10盒子上运行了旧版本的PySpark。
任何想法或提示?
答案 0 :(得分:2)
来自PyPi或Anaconda的Pyspark(即与pip
或conda
一起安装)不包含完整的Pyspark功能;它仅适用于现有集群中的Spark安装,在这种情况下,可能需要avoid downloading the whole Spark distribution locally。来自PyPi docs(此信息也应位于Anaconda Cloud中,但遗憾的是它不是):
Spark的Python包装并不是要取代所有的 其他用例。这个Python打包版本的Spark适合 与现有集群交互(无论是Spark独立,YARN还是 Mesos) - 但不包含设置自己的工具 独立的Spark集群。您可以下载完整版Spark 来自Apache Spark downloads page。
所以,你应该做的是从上面的链接下载完整的Spark发行版(其中Pyspark是不可或缺的部分)。当然,这正是您过去所做的,因为pip/conda
选项最近才在Spark 2.1中可用。