如何从命令行为Jupyter spark / pyspark笔记本指定内存和CPU?

时间:2017-01-17 03:46:32

标签: apache-spark pyspark jupyter-notebook

目的是实现

的目标
 jupyter-notebook --kernel-options="--mem 1024m --cpus 4"

kernel-options转发到pysparkspark内核的位置。

我们需要这个来运行单独的jupyter服务器 - 一个用于pyspark内核,一个用于spark (in scala)内核在同一台机器上。这是一项要求,因为单个jupyter服务器不支持同时运行的pyspark(scala) spark内核。

1 个答案:

答案 0 :(得分:1)

对于Jupyter 4.0及更高版本,您应该可以启动支持Spark的笔记本电脑:

pyspark [options]

其中[options]是您传递给pyspark的任何标志的列表。

为此,您需要在.profile中设置以下环境变量:

export PYSPARK_DRIVER_PYTHON="/path/to/my/bin/jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
export PYSPARK_PYTHON="/path/to/my/bin/python"

或者,如果您使用的是Apache Toree,则可以通过SPARK_OPTS传递它们:

SPARK_OPTS='--master=local[4]' jupyter notebook

有关Apache Toree setup的详细信息。