Question

我可以使用https://cloud.google.com/dataproc/tutorials/jupyter-notebook

成功运行pyspark的jupyter

我的问题是 - 如果我必须将软件包添加到pyspark（如spark-csv或graphframes）并通过笔记本使用它们，那么最佳做法是什么？我可以使用--packages选项在新的pyspark作业中添加包，但是如何将新的pyspark上下文连接到笔记本？

Answer 1

为了让笔记本电脑正常工作，您真的希望笔记本电脑设置能够自行选择合适的电子设备。由于您链接的初始化操作可以确保Jupyter将使用群集配置的Spark目录，从而获取所有必需的YARN / filesystem / lib配置，最好的方法是在群集中添加属性 - 创建时间而不是工作提交时间：

gcloud dataproc clusters create \
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0

根据this StackOverflow error，设置spark-defaults.conf属性spark.jars.packages比指定--packages选项更具可移植性，因为--packages只是火花中的语法糖-shell / spark-submit / pyspark包装器，无论如何都设置了spark.jars.packages配置条目。

使用jupyter notebook将包添加到pyspark

1 个答案: