应用错误收集

时间：2017-04-17 06:57:04

标签： apache-spark hive bigdata

目前，我正在尝试采用大数据来取代目前的数据分析平台。我当前的平台非常简单，我的系统从各种上游系统获取了大量结构化的csv feed文件，然后，我们将它们作为java对象（即在内存中）加载进行聚合。

我正在寻找使用Spark来替换我的java对象层以进行聚合过程。

我理解Spark支持从hdfs / filesystem加载文件。因此，Hive作为数据仓库似乎不是必须的。但是，我仍然可以首先将我的csv文件加载到Hive，然后使用Spark从Hive加载数据。

我的问题是，在我的情况下，如果我引入Hive层而不是直接将csv文件加载到Spark DF，那么有什么优点/好处。

感谢。

答案 0 :(得分：2)