配置3.6而非2.7后未找到Amazon EMR Pyspark模块

时间:2019-06-18 14:40:32

标签: python amazon-web-services pyspark amazon-emr

我的问题与此one有关,但是那里的答案对我不起作用。我启动了一个AWS EMR集群,并通过配置对象here将Spark设置为使用Python 3而不是Python 2的默认值。在使用包含 ID Name GroupName City Date Time Price A1 South Group1 London 10/06/2018 13.30 $4.50 A2 North Group2 New York 10/07/2018 09:00AM $60 A3 East Group3 Paris 09/09/2017 03:00AM $5.00 A4 West Group4 Berlin 01/05/2018 18:00 $12.50 的.sh文件启动群集时,我还添加了一个引导操作。但是,当我SSH进入集群并启动sudo pip install boto3时,会出现以下错误,好像尚未安装boto3:

pyspark

当我尝试在群集的终端中运行Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.4.2 /_/ Using Python version 3.6.8 (default, May 24 2019 18:27:52) SparkSession available as 'spark'. >>> import boto3 Traceback (most recent call last): File "<stdin>", line 1, in <module> ModuleNotFoundError: No module named 'boto3' 时,我看到消息说pip install boto3。如何将pyspark指向软件包安装?还是可以为Python 3单独安装它们?

0 个答案:

没有答案