应用错误收集

从oracle获取数据并使用emr集群中的spark进行处理

时间：2018-05-17 14:38:19

标签： oracle amazon-web-services apache-spark sqoop amazon-emr

我有一张约有30张桌子的oracle表。我想将这些表中的数据在特定时间段内转储到EMR集群中，然后运行我对数据的hive查询。我想使用spark和AWS EMR来执行此操作。这将是一个需要每4小时运行一次的预定作业。获取的数据量将为少数100条记录（每4小时）。如何从oracle获取数据并对数据运行hive查询？

1 个答案:

答案 0 :(得分：1)

我会添加评论但没有足够的分数，所以我在这里写。

如果我理解正确，你想每4小时从Oracle获取+/- 100行，对吧？如果是这样，为什么你需要使用Spark或Hive？您不能直接在Oracle中创建一个视图，每4个小时就有100行，并直接查询它？值得关注的是，如果数据适合您的单台机器并且预计不会快速增长，那么您就不需要任何分布式解决方案。