我的问题与此one有关,但是那里的答案对我不起作用。我启动了一个AWS EMR集群,并通过配置对象here将Spark设置为使用Python 3而不是Python 2的默认值。在使用包含 ID Name GroupName City Date Time Price
A1 South Group1 London 10/06/2018 13.30 $4.50
A2 North Group2 New York 10/07/2018 09:00AM $60
A3 East Group3 Paris 09/09/2017 03:00AM $5.00
A4 West Group4 Berlin 01/05/2018 18:00 $12.50
的.sh文件启动群集时,我还添加了一个引导操作。但是,当我SSH进入集群并启动sudo pip install boto3
时,会出现以下错误,好像尚未安装boto3:
pyspark
当我尝试在群集的终端中运行Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.4.2
/_/
Using Python version 3.6.8 (default, May 24 2019 18:27:52)
SparkSession available as 'spark'.
>>> import boto3
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'boto3'
时,我看到消息说pip install boto3
。如何将pyspark指向软件包安装?还是可以为Python 3单独安装它们?