我还没有设法让Spark,Scala和Jupyter合作。有没有人有一个简单的食谱?您使用的是哪个版本的组件?
答案 0 :(得分:4)
Apache Toree与DataProc的1.0映像兼容,目前包含Spark 1.6.1。我没有尝试将它与预览图像一起使用,其中包括Spark 2.0预览。要在DataProc主服务器上安装Toree,您可以运行
sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME
答案 1 :(得分:0)
Spark是Dataproc集群的标准配置。
这是一个gcloud命令,可用于创建一个Dataproc集群(名为“dplab”),其中包括Jupyter侦听端口8124:
$ gcloud dataproc clusters create dplab \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--metadata "JUPYTER_PORT=8124" \
--zone=us-central1-c
然后运行此命令以从主机端口转发到集群主服务器:
$ gcloud compute ssh dplab-m \
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c
在浏览器中打开localhost:8124,您应该会看到Jupyter页面。