我有一个用于Spark作业的python项目。我想使用--py-files提交spark-submit命令,并提供所有依赖项。希望仅在spark-submit命令中提供所有依赖模块,例如
提交火花--py-files dataIngestionTool-0.1-py2-none-any.zip,pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip driver.py --job = dataIngestionTool.dataPrepartion.dataIngestion- configLoc = config.cnf“
如果我在py文件中添加了pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip并失败并显示错误
,则该按钮不起作用第19行,文件“ pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip/pandas/init.py” ImportError:缺少必需的依赖项['numpy']“
熊猫内部依赖于numpy ..甚至在py文件中添加numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip仍然出现相同的错误。
在我的环境中安装了pandas(具有所有依赖项)并且未提供pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip和numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip的问题已解决
即命令运行正常:
spark-submit --py-files dataIngestionTool-0.1-py2-none-any.zip driver.py --job=dataIngestionTool.dataPrepartion.dataIngestion --configLoc=config.cnf"
如果我在py文件中添加了熊猫,那么只会失败。
似乎问题出在大熊猫身上。有人可以帮助我解决这个问题吗?