Question

我还没有设法让Spark，Scala和Jupyter合作。有没有人有一个简单的食谱？您使用的是哪个版本的组件？

Answer 1

Apache Toree与DataProc的1.0映像兼容，目前包含Spark 1.6.1。我没有尝试将它与预览图像一起使用，其中包括Spark 2.0预览。要在DataProc主服务器上安装Toree，您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

Answer 2

Spark是Dataproc集群的标准配置。

这是一个gcloud命令，可用于创建一个Dataproc集群（名为“dplab”），其中包括Jupyter侦听端口8124：

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行此命令以从主机端口转发到集群主服务器：

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开localhost：8124，您应该会看到Jupyter页面。

在Dataproc上运行Spark + Scala + Jupyter

2 个答案: