将数据加载到HIVE以支持前端应用程序

时间:2016-01-05 19:43:35

标签: hadoop

我们有一个数据仓库应用程序,我们计划将其转换为Hadoop。

目前,我们每天都会收到20个Feed,并将这些数据加载到MySQL数据库中。

随着数据量的增加,我们计划迁移到Hadoop以加快查询处理速度。

作为第一步,我们计划每天将数据加载到HIVE而不是MySQL。

问题: - 1.我可以将类似于DWH应用程序的Hadoop转换为每天处理文件吗? 2.当我在主节点中加载数据时,它会自动同步吗?

1 个答案:

答案 0 :(得分:0)

这实际上取决于数据的大小。问题有点复杂,但一般来说,您必须设计自己的管道。

  1. 如果您正在分析原始日志,HDFS将是一个很好的选择。您可以使用Java,Python或Scala每天安排Hive作业,如果仍需要一些MySQL数据,可以使用Sqoop。
  2. 在Hive中,您必须创建分区表以便在查询执行时同步并可用。也可以安排分区创建。
  3. 我建议使用Impala而不是Hive,因为它更可调,容错且更易于使用。