我有一个具有以下结构的python / pyspark项目:
project
__ini__.py
module1
__ini__.py
file1.py
file_run1.py
module2
__ini.py
file2.py
file_run2.py
shared_allmodules
__ini__.py
func1.py
func2.py
File_run1.py:
from shared_allmodules import func1, func2
from module1 import file1
File2.py:
from shared_allmodules import func2
我在CDSW中具有thia结构,并且在那里工作。但是现在我必须将所有文件移到Unix服务器并从那里运行。
但是当我跑步
spark2-submit file_run1.py
在module1目录中,我出现一个错误,即“没有名为shared_allmodules的模块”。
我是python / pyspark的新手,我不知道该怎么做才能在UNIX中识别我的子模块。
我没有主要 .py,因为我不知道如何使用它。 另外,如果name = main,我也没有条件。
我的py文件有很多pyspark代码,我只是在这里写了一部分目录结构。
您知道我要做什么才能在Unix中运行从其他目录导入模块的py文件吗?
答案 0 :(得分:0)
您需要指定环境变量# Example df
,该变量为python解释器目录(在PYTHONPATH
之外的目录)可见,或者使用site-packages
[1]在系统中安装模块
示例:
setuptools