Spark无法看到hive外部表

时间:2015-08-13 17:17:04

标签: hadoop amazon-web-services apache-spark hive emr

我是Spark和AWS的noobie。

我在AWS中有一个DynamoDB表。我在带有hive的EMR上创建了一个Spark集群。 使用hive shell,我创建了外部表“RawData”以连接到DynamoDB。

现在,当我使用DynamoDB依赖jars --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hive.jar,/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar启动spark-shell时 我可以使用HiveContext查询表“RawData” 并得到结果。  但是当我使用spark-submit提交我的Spark程序时,我在终端中看到了一些spark异常,并且在日志中我发现:" org.apache.spark.sql.AnalysisException:没有这样的表RawData "

这是我创建群集的方式:aws emr create-cluster --name MyCluster --release-label emr-4.0.0 --applications Name=Spark Name=Hive ...

请告知我做错了什么。 列夫

1 个答案:

答案 0 :(得分:5)

我发现了submit命令中缺少的内容。 我不得不添加--files /etc/hive/conf/hive-site.xml作为spark-submit的参数之一。