我按照初始化脚本启动Google DataProc群集的说明启动jupyter笔记本。
如何在Jupyter笔记本(特别是pyspark)中生成的SparkContext中包含额外的JAR文件(例如spark-xml)?
答案 0 :(得分:5)
答案略微取决于您要加载哪些罐子。例如,您可以在创建集群时使用spark-xml和以下内容:
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties spark:spark.jars.packages=com.databricks:spark-xml_2.11:0.4.1
要指定多个Maven坐标,您需要交换','中的gcloud字典分隔符。到其他东西(因为我们需要使用它来分隔要安装的包):
$ gcloud dataproc clusters create [cluster-name] \
--zone [zone] \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--properties=^#^spark:spark.jars.packages=artifact1,artifact2,artifact3
有关如何更改转义字符的详细信息,请参阅gcloud:
$ gcloud help topic escaping