Dataproc不会导入存储在Google Cloud Storage存储桶中的Python模块

时间:2020-04-29 14:50:16

标签: python apache-spark pyspark python-import google-cloud-dataproc

我在Google云存储(GCS)存储桶中具有以下结构:

gs://my_bucket/py_scripts/
    wrapper.py
    mymodule.py
    _init__.py

我正在通过Dataproc作为pyspark作业运行wrapper.py,并且它在开始时使用mymodule导入了import mymodule,但是作业返回错误消息no module named mymodule,即使它们是在同一条路径上。但是,这在Unix环境中可以正常工作。

请注意,_init__.py为空。也经过测试from mymodule import myfunc,但返回相同的错误。

1 个答案:

答案 0 :(得分:0)

可以提供您的pyspark作业提交命令吗? 我怀疑您没有通过“ --py-files”参数来提供其他python文件来工作。检查参考https://cloud.google.com/sdk/gcloud/reference/dataproc/jobs/submit/pyspark。 Dataproc不会假设文件位于与作业输入相同的GS存储桶中。