如何从命令行访问Apache PySpark?

时间:2019-10-03 19:34:05

标签: apache-spark pyspark jupyter-notebook

我正在使用Jupyter笔记本电脑上有关Apache PySpark的在线课程。为了轻松打开Jupyter笔记本,他们让我在bash配置文件中输入以下代码行(我使用的是MAC OS):

export SPARK_HOME="(INSERTED MY SPARK DIRECTORY)"
export PATH=$SPARK_HOME/bin:$PATH
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

我对Linux不太熟悉,本课程也没有解释这些代码行的作用。在执行此操作之前,我可以通过输入“ pyspark”通过命令行访问PySpark。但是现在当我键入“ pyspark”时,它将打开一个Jupyter笔记本。现在我不知道如何从命令行访问它。这段代码是做什么的,我如何访问命令行pyspark?

1 个答案:

答案 0 :(得分:1)

您是否正在使用Pyspark的本地安装?

您可以使用https://github.com/minrk/findspark

使用Anaconda安装findspark

首先,您添加这两行,便可以找到pyspark。

import findspark
findspark.init()

import pyspark
sc = pyspark.SparkContext(appName="myAppName")