我在Google云存储(GCS)存储桶中具有以下结构:
gs://my_bucket/py_scripts/
wrapper.py
mymodule.py
_init__.py
我正在通过Dataproc作为pyspark作业运行wrapper.py
,并且它在开始时使用mymodule
导入了import mymodule
,但是作业返回错误消息no module named mymodule
,即使它们是在同一条路径上。但是,这在Unix环境中可以正常工作。
请注意,_init__.py
为空。也经过测试from mymodule import myfunc
,但返回相同的错误。
答案 0 :(得分:0)
可以提供您的pyspark作业提交命令吗? 我怀疑您没有通过“ --py-files”参数来提供其他python文件来工作。检查参考https://cloud.google.com/sdk/gcloud/reference/dataproc/jobs/submit/pyspark。 Dataproc不会假设文件位于与作业输入相同的GS存储桶中。