我在执行以下命令时遇到问题:
sqlContext = HiveContext(sc)
在EC2群集中。它在本地运行良好,但不在集群中。
使用以下命令设置群集:
spark-ec2 -k <your key pair name> -i /path/to/identity-file.pem -r us-west-2 -s 2 --instance-type m3.medium --spark-version 1.5.2 --hadoop-major-version yarn launch <your cluster name>
根据:Can't seem to build hive for spark
是否安装了hive支持?我在哪里可以找到配置文件? 我是否需要为hive(-Phive)支持编译spark?
答案 0 :(得分:0)
最好的方法是使用Spark版本2.0,它已经在SparkSession中集成了HiveContext。
上传群集的关键参数是--spark-version和hadoop-major-version,如下所示:
./spark-ec2 -k <your key pair name> -i /path/to/identity-file.pem -s <number of slaves> -r <region> --instance-type <instance type> --spark-version=2.0.1 --hadoop-major-version yarn launch rcluster