应用错误收集

评估和比较Hadoop的商业智能设计注意事项

时间：2011-06-18 10:58:33

标签： hadoop data-warehouse business-intelligence hadoop-plugins

我正在考虑各种用于数据仓库和商业智能的技术，并且已经发现了这个名为Hadoop的激进工具。 Hadoop似乎并不是为BI目的而精确构建的，但是它的引用在这个领域具有潜力。（http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488）。

然而，我从互联网获得的信息很少，我的直觉告诉我，hadoop可以成为传统BI解决方案领域的颠覆性技术。关于这个主题确实存在稀疏的信息，因此我希望收集所有Guru关于Hadoop作为BI工具的潜力的想法，与传统的后端BI基础设施（如 Oracle Exadata，vertica等）相比。对于初学者，我想问下面的问题 -

设计注意事项 - 如何使用Hadoop设计BI解决方案与传统工具不同？我知道它应该是不同的，因为我读过一个无法在Hadoop中创建模式。我还读到一个主要优点是完全消除了Hadoop的ETL工具（这是真的吗？）我们是否需要Hadoop + pig + mahout才能获得BI解决方案？

谢谢＆amp;此致！

编辑 - 分解为多个问题。将从我认为最重要的那个开始。

4 个答案:

答案 0 :(得分：2)

Hadoop非常适合存储可以表示事实表的巨大文件。可以通过将表示表的单个文件放入单独的目录来对这些表进行分区。 Hive理解这样的文件结构，并允许像分区表一样查询它们。您可以通过Hive以SQL查询的形式将BI问题标记为Hadoop数据，但您仍需要编写并运行偶尔的MapReduce作业。

答案 1 :(得分：2)

Hadoop是一个很好的工具，可以成为BI解决方案的一部分。它本身不是BI解决方案。 Hadoop所做的是接收Data_A并输出Data_B。无论Bi需要什么但不是有用的形式都可以使用MapReduce处理并输出有用的数据形式。无论是CSV，HIVE，HBase，MSSQL还是用于查看数据的任何其他内容。

我相信Hadoop应该是ETL工具。这就是我们正在使用它。我们每小时处理一次日志文件并将其存储在Hive中，并进行每日聚合，这些聚合将加载到MSSQL服务器并通过可视化层进行查看。

我遇到的主要设计考虑因素是：
- 数据灵活性：您是否希望用户查看预先汇总的数据，或者是否可以灵活地调整查询并查看数据的方式 - 速度：您希望用户等待数据多长时间？ Hive（例如）很慢。生成结果需要几分钟，即使在相当小的数据集上也是如此。遍历的数据越大，生成结果所需的时间越长 - 可视化：您想要使用哪种类型的可视化？你想自定义制作很多作品还是能够使用现成的东西？您的可视化需要什么样的限制和灵活性？可视化需要多么灵活和多变？

HTH

更新：作为回应@Bhat的评论，询问缺乏可视化......
缺乏可视化工具可以让我们有效地利用存储在HBase中的数据，这是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在Hive中，并预先聚合数据并将其存储在HBase中。为了利用这个，我们将不得不编写一个自定义连接器（做这个部分）和可视化层。我们研究了我们能够生产什么和商业化的东西，并走上了商业路线我们仍然使用Hadoop作为我们的ETL工具来处理我们的博客，这非常棒。我们只是将ETL的原始数据发送到商业大数据数据库，该数据库将取代我们设计中的Hive和HBase。

Hadoop并不真正与MSSQL或其他数据仓库存储进行比较。 Hadoop不做任何存储（忽略HDFS），它处理数据。运行MapReduces（Hive所做的）将比MSSQL（或类似）慢。

答案 2 :(得分：0)

从业务角度来看，如果您拥有大量低价值数据，则应考虑使用Hadoop。在许多情况下，RDBMS / MPP解决方案不具有成本效益。如果您的数据不是结构化的（例如HTML），您还应该将Hadoop视为一个严肃的选择。

答案 3 :(得分：0)

我们正在为Big Data / Hadoop的BI工具创建比较矩阵 http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html

这项工作正在进行中，并且非常喜欢任何意见。

（免责声明：我是这本在线图书的作者）