在Dataproc上运行Spark + Scala + Jupyter

时间:2016-06-28 23:57:07

标签: scala apache-spark jupyter-notebook google-cloud-dataproc apache-toree

我还没有设法让Spark,Scala和Jupyter合作。有没有人有一个简单的食谱?您使用的是哪个版本的组件?

2 个答案:

答案 0 :(得分:4)

Apache Toree与DataProc的1.0映像兼容,目前包含Spark 1.6.1。我没有尝试将它与预览图像一起使用,其中包括Spark 2.0预览。要在DataProc主服务器上安装Toree,您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

答案 1 :(得分:0)

Spark是Dataproc集群的标准配置。

这是一个gcloud命令,可用于创建一个Dataproc集群(名为“dplab”),其中包括Jupyter侦听端口8124:

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行此命令以从主机端口转发到集群主服务器:

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开localhost:8124,您应该会看到Jupyter页面。