spark-submit python文件并没有找到模块

时间:2019-01-25 17:51:16

标签: python apache-spark pyspark

 spark-submit --master yarn-cluster --deploy-mode cluster test.py

最终出现错误

  

将pandas导入为pd ImportError:没有名为pandas的模块

这是我看到的唯一错误。

使用anaconda python distribution 2.7 PYSPARK_VENV]/lib/python2.7/site-packages/的地点有熊猫。

2 个答案:

答案 0 :(得分:0)

您可以检查 [PYSPARK_VENV] /lib/python2.7/site-packages / 文件夹中是否安装了熊猫。看起来您在另一个python解释器上执行pyspark应用程序。请确保您已经为该解释器安装了pandas软件包。

在这种情况下,您可以使用Anaconda来管理python软件包。

答案 1 :(得分:0)

设置PYSPARK_PYTHON路径应该可以解决此问题:

使用以下命令检查pyspark路径:which pyspark

export PYSPARK_PYTHON=/pyspark/path/from/above