在Linux上正确配置PySpark和Anaconda3

时间:2017-10-13 16:24:03

标签: linux hadoop pyspark jupyter-notebook jupyter

到目前为止,我采取了以下步骤:

  1. 我安装了Anaconda3以及目录$HOME/anaconda3/bin中包含的所有内容。
  2. 我进入$HOME/anaconda3/bin并运行命令./conda install -c conda-forge pyspark。它很成功。
  3. 我没有做任何其他事情。更具体地说,我的.bashrc
  4. 中没有设置变量

    以下是一些重要细节:

    • 我在运行Hadoop的分布式集群上,因此我的主文件夹之外可能还有其他目录,我还没有发现,但我可能需要。我也没有管理员权限。
    • Jupyter笔记本运行得很好。

    这是我的目标:

    目标。要做一些添加变量或配置某些文件的内容,以便我可以在Jupyter Notebook上运行pyspark。

    为了实现这一目标,我需要在第3步之后采取哪些其他步骤?

1 个答案:

答案 0 :(得分:1)

由于您已经使用conda安装了pyspark,并且正如您所说,Jupyter笔记本运行正常(可能是针对相同的Anaconda发行版),因此无需进一步的步骤 - 您应该能够打开一个新笔记本并{ {1}}。

请注意,以这种方式安装pyspark(即使用import pysparkpip)只提供有限的功能;来自包docs

  

Spark的Python包装并不是要取代所有的   其他用例。这个Python打包版本的Spark适合   与现有集群交互(无论是Spark独立,YARN还是   Mesos) - 但不包含设置自己的工具   独立的Spark集群。您可以下载完整版Spark   来自Apache Spark下载页面。

使用condapip安装pyspark是一个相对较新的add-on,针对上述文档中描述的情况。我不知道你可能面临的限制(从未尝试过)但是如果你需要完整的功能,你应该下载完整的Spark发行版(其中pyspark是不可或缺的部分)。