目前,我正在尝试采用大数据来取代目前的数据分析平台。我当前的平台非常简单,我的系统从各种上游系统获取了大量结构化的csv feed文件,然后,我们将它们作为java对象(即在内存中)加载进行聚合。
我正在寻找使用Spark来替换我的java对象层以进行聚合过程。
我理解Spark支持从hdfs / filesystem加载文件。因此,Hive作为数据仓库似乎不是必须的。但是,我仍然可以首先将我的csv文件加载到Hive,然后使用Spark从Hive加载数据。
我的问题是,在我的情况下,如果我引入Hive层而不是直接将csv文件加载到Spark DF,那么有什么优点/好处。
感谢。
答案 0 :(得分:2)