一个配置单元实例可以跨hdfs集群存储不同的表。然后在这些桌子上做hive ql?
我的用例是我在一个hdfs集群上有一个配置单元表。我想用hive ql对它进行一些处理,并将输出写入另一个hdfs集群。我希望只通过hive直接实现这一点,而不需要运行一些转储/复制/导入过程。那可能吗?我不认为这是可能的,但是,我注意到了一个设计页面:
https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=27837073
在其中,它说:
“请注意,即使在今天,不同的分区/表可以跨越多个dfs,而hive也不会强制执行任何限制。这些dfs也可以位于不同的数据中心”
除此之外,我没有谷歌任何相关的东西。
有人对此有什么想法吗?感谢。
答案 0 :(得分:0)
有多种方法可以解决这个问题。你可以使用镜像(使用像Apache Falcon这样的工具)。在这种情况下,您将数据存储在两个群集中。如果要在没有镜像的情况下跨具有不同表的集群进行查询,请使用Apache Drill之类的工具,这些工具可以连接来自不同数据源的数据。它目前支持hive,mongo,json,kudu等