使用Hive作为数据仓库时,我的案例有什么好处?

时间:2017-04-17 06:57:04

标签: apache-spark hive bigdata

目前,我正在尝试采用大数据来取代目前的数据分析平台。我当前的平台非常简单,我的系统从各种上游系统获取了大量结构化的csv feed文件,然后,我们将它们作为java对象(即在内存中)加载进行聚合。

我正在寻找使用Spark来替换我的java对象层以进行聚合过程。

我理解Spark支持从hdfs / filesystem加载文件。因此,Hive作为数据仓库似乎不是必须的。但是,我仍然可以首先将我的csv文件加载到Hive,然后使用Spark从Hive加载数据。

我的问题是,在我的情况下,如果我引入Hive层而不是直接将csv文件加载到Spark DF,那么有什么优点/好处。

感谢。

1 个答案:

答案 0 :(得分:2)

  1. 您可以随时使用表格查看和感受数据。
  2. 可以使用HiveQL执行特殊查询/聚合。
  3. 通过Spark访问该数据时,无需单独提及数据架构。