大数据/ Hadoop项目的典型流程?

时间:2014-06-18 12:20:26

标签: hadoop hive apache-pig bigdata sqoop

我最近开始学习像SQOOP,Hive,Pig这样的BigData技术,并发现有多种替代方案(如SQOOP,HiveQL等)可用于解决给定问题。我对技术/工具的选择感到有点困惑。

如果您在大多数情况下采用任何典型的Microsoft BI项目,那么流程将是

SSIS(处理原始数据) - > SSAS(创建OLAP DB) - > SSRS(生成报告)。

类似于此,BigData / Hadoop项目的典型流程是什么。假设我的数据源是电子邮件日志。

1 个答案:

答案 0 :(得分:0)

这实际上取决于你的要求和你拥有的技能。在我看来,您可以通过多种方式处理电子邮件日志。

选项

  1. (近实时)使用flume从源传输电子邮件日志--->将日志存储在水槽中的HDFS中--->使用Pig或Hive分析日志。
  2. (实时)使用Storm spouts流式电子邮件日志--->用风暴螺栓处理原木--->将它们存储在finnaly ins nosql数据库中,以便进一步报告和分析。
  3. 还有很多其他方法可以做到这一点。根据适合您要求的可用技能组合,您可以决定。