在启动Google DataProc群集以与Jupyter笔记本一起使用时,如何添加其他jar?

时间:2017-09-07 20:33:26

标签: apache-spark jupyter-notebook google-cloud-dataproc

我按照初始化脚本启动Google DataProc群集的说明启动jupyter笔记本。

https://cloud.google.com/blog/big-data/2017/02/google-cloud-platform-for-data-scientists-using-jupyter-notebooks-with-apache-spark-on-google-cloud

如何在Jupyter笔记本(特别是pyspark)中生成的SparkContext中包含额外的JAR文件(例如spark-xml)?

1 个答案:

答案 0 :(得分:5)

答案略微取决于您要加载哪些罐子。例如,您可以在创建集群时使用spark-xml和以下内容:

$ gcloud dataproc clusters create [cluster-name] \
    --zone [zone] \
    --initialization-actions \
       gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1

要指定多个Maven坐标,您需要交换','中的gcloud字典分隔符。到其他东西(因为我们需要使用它来分隔要安装的包):

$ gcloud dataproc clusters create [cluster-name] \
    --zone [zone] \
    --initialization-actions \
       gs://dataproc-initialization-actions/jupyter/jupyter.sh \ 
    --properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3

有关如何更改转义字符的详细信息,请参阅gcloud:

$ gcloud help topic escaping