带有Jupyter的Google Dataproc-下载笔记本生成的文件

时间:2019-01-13 12:12:34

标签: jupyter-notebook google-cloud-dataproc

我们使用Google Cloud Dataproc进行快速数据分析,并且我们大量使用Jupyter笔记本。对于我们来说,常见的情况是生成报告,然后将其作为csv下载。

在本地Jupyter环境中,例如可以使用FileLink

from IPython.display import FileLinks
df.to_csv(path)
FileLinks(path)

这不适用于Dataproc,因为笔记本保存在Google存储桶中,并且生成的链接是相对于该前缀的,例如http://my-cluster-m:8123/notebooks/my-notebooks-bucket/notebooks/my_csv.csv

有人知道该如何克服吗?当然,我们可以scp从计算机上下载文件,但我们正在寻找更方便的方法。

1 个答案:

答案 0 :(得分:1)

要共享报告,您可以将其保存到Google Cloud Storage(GCS),而不是本地文件。

为此,您将needconvert的Pandas DataFrame转换为Spark DataFrame并将其写入GCS:

sparkDf = SQLContext(SparkContext.getOrCreate()).createDataFrame(df)
sparkDf.write.csv("gs://<BUCKET>/<path>")