哪个是用hadoop和hive设置ec2集群的简单方法?

时间:2016-11-28 15:26:44

标签: hadoop apache-spark hive

我在执行以下命令时遇到问题:

sqlContext = HiveContext(sc) 

在EC2群集中。它在本地运行良好,但不在集群中。

使用以下命令设置群集:

spark-ec2 -k <your key pair name> -i /path/to/identity-file.pem -r us-west-2 -s 2 --instance-type m3.medium --spark-version 1.5.2 --hadoop-major-version yarn  launch <your cluster name>

根据:Can't seem to build hive for spark

是否安装了hive支持?我在哪里可以找到配置文件? 我是否需要为hive(-Phive)支持编译spark?

1 个答案:

答案 0 :(得分:0)

最好的方法是使用Spark版本2.0,它已经在SparkSession中集成了HiveContext。

上传群集的关键参数是--spark-version和hadoop-major-version,如下所示:

./spark-ec2 -k <your key pair name> -i /path/to/identity-file.pem -s <number of slaves> -r <region> --instance-type <instance type> --spark-version=2.0.1 --hadoop-major-version yarn launch rcluster