spark-submit --master yarn-cluster --deploy-mode cluster test.py
最终出现错误
将pandas导入为pd ImportError:没有名为pandas的模块
这是我看到的唯一错误。
使用anaconda python distribution 2.7
PYSPARK_VENV]/lib/python2.7/site-packages/
的地点有熊猫。
答案 0 :(得分:0)
您可以检查 [PYSPARK_VENV] /lib/python2.7/site-packages / 文件夹中是否安装了熊猫。看起来您在另一个python解释器上执行pyspark应用程序。请确保您已经为该解释器安装了pandas软件包。
在这种情况下,您可以使用Anaconda来管理python软件包。
答案 1 :(得分:0)
设置PYSPARK_PYTHON路径应该可以解决此问题:
使用以下命令检查pyspark路径:which pyspark
export PYSPARK_PYTHON=/pyspark/path/from/above