我们如何处理来自Hadoop DB的已处理数据(输出)?

时间:2015-12-23 00:38:58

标签: hadoop mapreduce apache-pig

我是Hadoop的新手,因此如果我的问题太不成熟,我会道歉。

我了解Hadoop用于分析大型数据集的数据。 最后我们对分析的数据做了什么,我们创建了报告和演示文稿?

例如, 如果是SSRS报告,则将根据使用SQL查询从RDBMS提取的结果数据生成报告。

但是,基于Hadoop的数据库中的工作原理如何?如果请求特定报告,客户端需要来自Hadoop DB的数据点,那么流程将如何? 我确信客户端不会直接在hadoop中运行Job来为其报告生成提取所需的数据,因为hadoop作业需要更多的时间来处理。

我的问题是,通过在hadoop DB上运行MR作业,处理后的数据(结果集)是否存储在任何中间数据库中,如RDBMS? 以便客户端可以提取所需的数据以生成报告?

请在此澄清我。

1 个答案:

答案 0 :(得分:1)

Hadoop有2个主要组件

  • 分布式存储(HDFS)
  • 分布式计算(Map Reduce)

Hadoop应该更像是分布式操作系统,HDFS作为分布式存储,Map Reduce作为内核。有许多工具,如Hive,Pig,Sqoop,Impala,Datameer,Spark等,可以利用这些分布式功能。

运行ETL等重量级数据处理后,您可以将数据加载回轻量级关系数据库,并连接企业BI工具(如SSRS)以进行报告。此外,像Tableau这样的BI工具也可以通过Spark连接到Hadoop,我们可以直接从Hadoop报告。 Datameer是基于Hadoop的可视化工具,可用于报告数据。

简而言之,我们不应该将SSRS等工具与Hadoop进行比较。 Hadoop是一种无缝提供分布式功能的技术,其周围的生态系统可用于解决利用它的业务问题。