使用Pandas进行Python-Project打包

时间:2019-01-14 12:03:33

标签: python pandas spark-submit python-packaging

我有一个用于Spark作业的python项目。我想使用--py-files提交spark-submit命令,并提供所有依赖项。希望仅在spark-submit命令中提供所有依赖模块,例如

  

提交火花--py-files dataIngestionTool-0.1-py2-none-any.zip,pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip driver.py --job = dataIngestionTool.dataPrepartion.dataIngestion- configLoc = config.cnf“

如果我在py文件中添加了pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip并失败并显示错误

,则该按钮不起作用
  

第19行,文件“ pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip/pandas/init.py”   ImportError:缺少必需的依赖项['numpy']“

熊猫内部依赖于numpy ..甚至在py文件中添加numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip仍然出现相同的错误。

在我的环境中安装了pandas(具有所有依赖项)并且未提供pandas-0.23.4-cp27-cp27mu-manylinux1_x86_64.zip和numpy-1.15.4-cp27-cp27mu-manylinux1_x86_64.zip的问题已解决

即命令运行正常:

spark-submit --py-files dataIngestionTool-0.1-py2-none-any.zip driver.py --job=dataIngestionTool.dataPrepartion.dataIngestion --configLoc=config.cnf"

如果我在py文件中添加了熊猫,那么只会失败。

似乎问题出在大熊猫身上。有人可以帮助我解决这个问题吗?

0 个答案:

没有答案