在Hadoop中集成外部API的最佳方法

时间:2018-10-26 07:13:08

标签: hadoop hive bigdata data-warehouse

  1. 我们正在将hive over hdfs用于自动化报告系统。
  2. 我们通过cronjob为R脚本安排了从第三方API到HDFS的导入。

    问题在于,如果其中一个导入由于某种原因未能更新HDFS中的新数据,则由于我们的大多数报告(Hive查询)都是相互关联的,因此这一天的报告就中断了。

我们需要确保这些脚本确实将数据放入HDFS中。使用cron似乎是这里的瓶颈。

如果脚本失败,则需要手动检查和运行脚本,然后执行所有配置单元查询,而不会更新数据。有没有办法在oozie工作流程中集成来自第三方api的数据提取并使其可靠?我知道有一个sqoop工具可以在oozie工作流程中使用,但问题仍然存在,如果脚本未能将数据放入关系数据库中,我们就会遇到数据管道中断的问题。 / p>

0 个答案:

没有答案