使用jupyter notebook将包添加到pyspark

时间:2016-03-25 16:51:58

标签: pyspark jupyter-notebook gcloud google-cloud-dataproc

我可以使用https://cloud.google.com/dataproc/tutorials/jupyter-notebook

成功运行pyspark的jupyter

我的问题是 - 如果我必须将软件包添加到pyspark(如spark-csv或graphframes)并通过笔记本使用它们,那么最佳做法是什么? 我可以使用--packages选项在新的pyspark作业中添加包,但是如何将新的pyspark上下文连接到笔记本?

1 个答案:

答案 0 :(得分:1)

为了让笔记本电脑正常工作,您真的希望笔记本电脑设置能够自行选择合适的电子设备。由于您链接的初始化操作可以确保Jupyter将使用群集配置的Spark目录,从而获取所有必需的YARN / filesystem / lib配置,最好的方法是在群集中添加属性 - 创建时间而不是工作提交时间:

gcloud dataproc clusters create \
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0

根据this StackOverflow error,设置spark-defaults.conf属性spark.jars.packages比指定--packages选项更具可移植性,因为--packages只是火花中的语法糖-shell / spark-submit / pyspark包装器,无论如何都设置了spark.jars.packages配置条目。