我有一张约有30张桌子的oracle表。我想将这些表中的数据在特定时间段内转储到EMR集群中,然后运行我对数据的hive查询。我想使用spark和AWS EMR来执行此操作。这将是一个需要每4小时运行一次的预定作业。获取的数据量将为少数100条记录(每4小时)。如何从oracle获取数据并对数据运行hive查询?
答案 0 :(得分:1)
我会添加评论但没有足够的分数,所以我在这里写。
如果我理解正确,你想每4小时从Oracle获取+/- 100行,对吧?如果是这样,为什么你需要使用Spark或Hive?您不能直接在Oracle中创建一个视图,每4个小时就有100行,并直接查询它?值得关注的是,如果数据适合您的单台机器并且预计不会快速增长,那么您就不需要任何分布式解决方案。