标签: mysql hadoop etl hive spring-batch
我正在考虑更换一堆Python ETL脚本,这些脚本执行每晚/每小时的数据汇总和大量数据的统计数据收集。
我想要实现的是
当前脚本执行以下操作:
我的想法是用spring-batch替换脚本。我也研究了Scriptella,但我认为这种情况太简单了。
因为我在Spring-Batch上看到了一些不好的共鸣(大多是老帖子),我希望在这里得到一些输入。我也没有太多关于spring-batch和Hive集成的看法,这很麻烦。
答案 0 :(得分:3)
如果您想留在Hadoop生态系统中,我强烈建议您查看Oozie以自动化您的工作流程。我们(Cloudera)提供了一个packaged version of Oozie,您可以使用它来开始。有关详细信息,请参阅我们最近的blog post。
答案 1 :(得分:1)
为什么不使用JasperETL或Talend?看起来像是工作的正确工具。
答案 2 :(得分:1)
我使用Cascading相当多,发现它非常令人印象深刻:
Cascading
它是一个M / R抽象层,在Hadoop上运行。