我正在尝试运行PySpark应用程序。 spark Submit命令看起来像这样。
spark-submit --py-files /some/location/data.py /path/to/the/main/file/etl.py
我的主文件(etl.py)导入了data.py并使用了data.py文件中的函数,代码如下所示。
import data
def main(args_dict):
print(args_dict)
df1 = data.get_df1(args_dict['df1name'])
df1 = data.get_df2(args_dict['df1name'])
...
...
...
我在--py文件中传递了data.py文件,但是当我运行spark-submit时,我得到了ImportError: No module named 'data'
我试图弄清楚我在这里做错了什么。谢谢。