评估和比较Hadoop的商业智能设计注意事项

时间:2011-06-18 10:58:33

标签: hadoop data-warehouse business-intelligence hadoop-plugins

我正在考虑各种用于数据仓库和商业智能的技术,并且已经发现了这个名为Hadoop的激进工具。 Hadoop似乎并不是为BI目的而精确构建的,但是它的引用在这个领域具有潜力。 (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。

然而,我从互联网获得的信息很少,我的直觉告诉我,hadoop可以成为传统BI解决方案领域的颠覆性技术。关于这个主题确实存在稀疏的信息,因此我希望收集所有Guru关于Hadoop作为BI工具的潜力的想法,与传统的后端BI基础设施(如 Oracle Exadata,vertica等)相比。对于初学者,我想问下面的问题 -

  • 设计注意事项 - 如何使用Hadoop设计BI解决方案与传统工具不同?我知道它应该是不同的,因为我读过一个无法在Hadoop中创建模式。我还读到一个主要优点是完全消除了Hadoop的ETL工具(这是真的吗?)我们是否需要Hadoop + pig + mahout才能获得BI解决方案?

谢谢&此致!

编辑 - 分解为多个问题。将从我认为最重要的那个开始。

4 个答案:

答案 0 :(得分:2)

Hadoop非常适合存储可以表示事实表的巨大文件。可以通过将表示表的单个文件放入单独的目录来对这些表进行分区。 Hive理解这样的文件结构,并允许像分区表一样查询它们。您可以通过Hive以SQL查询的形式将BI问题标记为Hadoop数据,但您仍需要编写并运行偶尔的MapReduce作业。

答案 1 :(得分:2)

Hadoop是一个很好的工具,可以成为BI解决方案的一部分。它本身不是BI解决方案。 Hadoop所做的是接收Data_A并输出Data_B。无论Bi需要什么但不是有用的形式都可以使用MapReduce处理并输出有用的数据形式。无论是CSV,HIVE,HBase,MSSQL还是用于查看数据的任何其他内容。

我相信Hadoop应该是ETL工具。这就是我们正在使用它。我们每小时处理一次日志文件并将其存储在Hive中,并进行每日聚合,这些聚合将加载到MSSQL服务器并通过可视化层进行查看。

我遇到的主要设计考虑因素是:
  - 数据灵活性:您是否希望用户查看预先汇总的数据,或者是否可以灵活地调整查询并查看数据的方式   - 速度:您希望用户等待数据多长时间? Hive(例如)很慢。生成结果需要几分钟,即使在相当小的数据集上也是如此。遍历的数据越大,生成结果所需的时间越长   - 可视化:您想要使用哪种类型的可视化?你想自定义制作很多作品还是能够使用现成的东西?您的可视化需要什么样的限制和灵活性?可视化需要多么灵活和多变?

HTH

更新:作为回应@Bhat的评论,询问缺乏可视化......
缺乏可视化工具可以让我们有效地利用存储在HBase中的数据,这是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在Hive中,并预先聚合数据并将其存储在HBase中。为了利用这个,我们将不得不编写一个自定义连接器(做这个部分)和可视化层。我们研究了我们能够生产什么和商业化的东西,并走上了商业路线 我们仍然使用Hadoop作为我们的ETL工具来处理我们的博客,这非常棒。我们只是将ETL的原始数据发送到商业大数据数据库,该数据库将取代我们设计中的Hive和HBase。

Hadoop并不真正与MSSQL或其他数据仓库存储进行比较。 Hadoop不做任何存储(忽略HDFS),它处理数据。运行MapReduces(Hive所做的)将比MSSQL(或类似)慢。

答案 2 :(得分:0)

从业务角度来看,如果您拥有大量低价值数据,则应考虑使用Hadoop。在许多情况下,RDBMS / MPP解决方案不具有成本效益。 如果您的数据不是结构化的(例如HTML),您还应该将Hadoop视为一个严肃的选择。

答案 3 :(得分:0)

我们正在为Big Data / Hadoop的BI工具创建比较矩阵 http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html

这项工作正在进行中,并且非常喜欢任何意见。

(免责声明:我是这本在线图书的作者)