hadoop - 我们如何处理来自Hadoop DB的已处理数据（输出）？

我是Hadoop的新手，因此如果我的问题太不成熟，我会道歉。

我了解Hadoop用于分析大型数据集的数据。最后我们对分析的数据做了什么，我们创建了报告和演示文稿？

例如，如果是SSRS报告，则将根据使用SQL查询从RDBMS提取的结果数据生成报告。

但是，基于Hadoop的数据库中的工作原理如何？如果请求特定报告，客户端需要来自Hadoop DB的数据点，那么流程将如何？我确信客户端不会直接在hadoop中运行Job来为其报告生成提取所需的数据，因为hadoop作业需要更多的时间来处理。

我的问题是，通过在hadoop DB上运行MR作业，处理后的数据（结果集）是否存储在任何中间数据库中，如RDBMS？以便客户端可以提取所需的数据以生成报告？

请在此澄清我。

Hadoop有2个主要组件

Hadoop应该更像是分布式操作系统，HDFS作为分布式存储，Map Reduce作为内核。有许多工具，如Hive，Pig，Sqoop，Impala，Datameer，Spark等，可以利用这些分布式功能。

运行ETL等重量级数据处理后，您可以将数据加载回轻量级关系数据库，并连接企业BI工具（如SSRS）以进行报告。此外，像Tableau这样的BI工具也可以通过Spark连接到Hadoop，我们可以直接从Hadoop报告。 Datameer是基于Hadoop的可视化工具，可用于报告数据。

简而言之，我们不应该将SSRS等工具与Hadoop进行比较。 Hadoop是一种无缝提供分布式功能的技术，其周围的生态系统可用于解决利用它的业务问题。