应用错误收集

时间：2016-01-05 19:43:35

标签： hadoop

我们有一个数据仓库应用程序，我们计划将其转换为Hadoop。

目前，我们每天都会收到20个Feed，并将这些数据加载到MySQL数据库中。

随着数据量的增加，我们计划迁移到Hadoop以加快查询处理速度。

作为第一步，我们计划每天将数据加载到HIVE而不是MySQL。

问题： - 1.我可以将类似于DWH应用程序的Hadoop转换为每天处理文件吗？ 2.当我在主节点中加载数据时，它会自动同步吗？

答案 0 :(得分：0)

这实际上取决于数据的大小。问题有点复杂，但一般来说，您必须设计自己的管道。

如果您正在分析原始日志，HDFS将是一个很好的选择。您可以使用Java，Python或Scala每天安排Hive作业，如果仍需要一些MySQL数据，可以使用Sqoop。
在Hive中，您必须创建分区表以便在查询执行时同步并可用。也可以安排分区创建。

我建议使用Impala而不是Hive，因为它更可调，容错且更易于使用。