到目前为止,我采取了以下步骤:
$HOME/anaconda3/bin
中包含的所有内容。$HOME/anaconda3/bin
并运行命令./conda install -c conda-forge pyspark
。它很成功。.bashrc
以下是一些重要细节:
这是我的目标:
目标。要做一些添加变量或配置某些文件的内容,以便我可以在Jupyter Notebook上运行pyspark。
为了实现这一目标,我需要在第3步之后采取哪些其他步骤?
答案 0 :(得分:1)
由于您已经使用conda
安装了pyspark,并且正如您所说,Jupyter笔记本运行正常(可能是针对相同的Anaconda发行版),因此无需进一步的步骤 - 您应该能够打开一个新笔记本并{ {1}}。
请注意,以这种方式安装pyspark(即使用import pyspark
或pip
)只提供有限的功能;来自包docs:
Spark的Python包装并不是要取代所有的 其他用例。这个Python打包版本的Spark适合 与现有集群交互(无论是Spark独立,YARN还是 Mesos) - 但不包含设置自己的工具 独立的Spark集群。您可以下载完整版Spark 来自Apache Spark下载页面。
使用conda
或pip
安装pyspark是一个相对较新的add-on,针对上述文档中描述的情况。我不知道你可能面临的限制(从未尝试过)但是如果你需要完整的功能,你应该下载完整的Spark发行版(其中pyspark是不可或缺的部分)。