目的是实现
的目标 jupyter-notebook --kernel-options="--mem 1024m --cpus 4"
将kernel-options
转发到pyspark
或spark
内核的位置。
我们需要这个来运行单独的jupyter服务器 - 一个用于pyspark
内核,一个用于spark (in scala)
内核在同一台机器上。这是一项要求,因为单个jupyter
服务器不支持同时运行的pyspark
和(scala) spark
内核。
答案 0 :(得分:1)
对于Jupyter 4.0及更高版本,您应该可以启动支持Spark的笔记本电脑:
pyspark [options]
其中[options]是您传递给pyspark的任何标志的列表。
为此,您需要在.profile
中设置以下环境变量:
export PYSPARK_DRIVER_PYTHON="/path/to/my/bin/jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON="/path/to/my/bin/python"
或者,如果您使用的是Apache Toree,则可以通过SPARK_OPTS传递它们:
SPARK_OPTS='--master=local[4]' jupyter notebook
有关Apache Toree setup的详细信息。