如何火花提交存储在GCP存储桶中的.py文件?

时间:2019-04-29 21:36:50

标签: python apache-spark google-cloud-platform pyspark spark-submit

我正在尝试运行此文件.py文件。我已经在GCP存储桶中复制了dsgd_mf.py文件。所需的输入数据文件也在我的存储桶中。如何火花提交并获得输出? (https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py

我在GCP上运行了Jupyter笔记本,并安装了gcloud SDK。除了创建集群和运行Jupiter Notebook,我还没有进行任何其他更改。我看到了一些与.jar文件有关的选项,但我不知道并且没有任何要指定或链接的.jar文件。我是新来的,快速帮助将不胜感激。请访问链接以查看脚本文件。我需要帮助才能在Google云平台上运行它。

1 个答案:

答案 0 :(得分:1)

您是否在Dataproc上运行它?如果是这样,您应该只可以使用以下方式提交pyspark作业:

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

尽管有什么用,但是使用pyspark jupyter内核将阻止该作业的启动(即,日志将显示该作业正在反复等待资源)。