Question

我正在尝试在apache oozie中设置一个spark动作工作流程，但是当我在hive上下文中的spark代码中调用select * from db.table时出现以下错误：

org.apache.spark.sql.AnalysisException: Table not found: `db`.`table`; line 1 pos 34

这个火花工作与spark-submit合作，所以我似乎无法确定问题。我已将hive-site.xml添加到以前问题中建议的各个位置，例如工作空间lib目录和工作空间目录，并将其添加到job.xml设置中，但我仍然遇到同样的问题。

我正在使用部署模式群集和主纱。

我尝试了很多组合，但不知道还能做些什么。

我哪里错了？

Answer 1

需要添加Hive配置。比如在工作流de文件所在的action中加入。

<spark xmlns="uri:oozie:spark-action:1.0">
   <!-- ... ->
   <file>${hiveConfig}</file>
</spark>

在 job.properties 中必须是引用：

hiveConfig=/user/oozie/extraconfig/hive-site.xml

这个文件必须在集群的每个节点中