我可以使用https://cloud.google.com/dataproc/tutorials/jupyter-notebook
成功运行pyspark的jupyter我的问题是 - 如果我必须将软件包添加到pyspark(如spark-csv或graphframes)并通过笔记本使用它们,那么最佳做法是什么? 我可以使用--packages选项在新的pyspark作业中添加包,但是如何将新的pyspark上下文连接到笔记本?
答案 0 :(得分:1)
为了让笔记本电脑正常工作,您真的希望笔记本电脑设置能够自行选择合适的电子设备。由于您链接的初始化操作可以确保Jupyter将使用群集配置的Spark目录,从而获取所有必需的YARN / filesystem / lib配置,最好的方法是在群集中添加属性 - 创建时间而不是工作提交时间:
gcloud dataproc clusters create \
--properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0
根据this StackOverflow error,设置spark-defaults.conf
属性spark.jars.packages
比指定--packages
选项更具可移植性,因为--packages
只是火花中的语法糖-shell / spark-submit / pyspark包装器,无论如何都设置了spark.jars.packages
配置条目。