无法在EMR群集上安装pip安装

时间:2020-05-14 20:59:37

标签: amazon-web-services apache-spark pyspark amazon-emr

我有一个EMR(emr-5.30.0)集群,我试图从S3中的引导文件开始。引导文件的内容为:

#!/bin/bash
sudo pip3 install --user \
     matplotlib \
     pandas \
     pyarrow \
     pyspark

我的stderr文件中的错误是:

WARNING: Running pip install with root privileges is generally not a good idea. Try `pip3 install --user` instead.
Command "python setup.py egg_info" failed with error code 1 in /mnt/tmp/pip-build-br9bn1h3/pyspark/

似乎很简单...不知道发生了什么。任何帮助表示赞赏。

编辑:

尝试了@Dennis Traub的建议,并得到相同的错误。新的EMR引导程序如下所示:

#!/bin/bash
sudo pip3 install --upgrade setuptools
sudo pip3 install --user matplotlib pandas pyarrow pyspark

2 个答案:

答案 0 :(得分:5)

myers

请勿安装#!/bin/bash sudo python3 -m pip install matplotlib pandas pyarrow 。它应该已经在EMR中带有必需的配置。安装可能会导致问题。

答案 1 :(得分:0)

您可能拥有过时的setuptools版本。尝试以下脚本:

#!/bin/bash
sudo pip3 install --upgrade setuptools
sudo pip3 install --user matplotlib pandas pyarrow pyspark