我正在考虑各种用于数据仓库和商业智能的技术,并且已经发现了这个名为Hadoop的激进工具。 Hadoop似乎并不是为BI目的而精确构建的,但是它的引用在这个领域具有潜力。 (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。
然而,我从互联网获得的信息很少,我的直觉告诉我,hadoop可以成为传统BI解决方案领域的颠覆性技术。关于这个主题确实存在稀疏的信息,因此我希望收集所有Guru关于Hadoop作为BI工具的潜力的想法,与传统的后端BI基础设施(如 Oracle Exadata,vertica等)相比。对于初学者,我想问下面的问题 -
谢谢&此致!
编辑 - 分解为多个问题。将从我认为最重要的那个开始。
答案 0 :(得分:2)
Hadoop非常适合存储可以表示事实表的巨大文件。可以通过将表示表的单个文件放入单独的目录来对这些表进行分区。 Hive理解这样的文件结构,并允许像分区表一样查询它们。您可以通过Hive以SQL查询的形式将BI问题标记为Hadoop数据,但您仍需要编写并运行偶尔的MapReduce作业。
答案 1 :(得分:2)
Hadoop是一个很好的工具,可以成为BI解决方案的一部分。它本身不是BI解决方案。 Hadoop所做的是接收Data_A并输出Data_B。无论Bi需要什么但不是有用的形式都可以使用MapReduce处理并输出有用的数据形式。无论是CSV,HIVE,HBase,MSSQL还是用于查看数据的任何其他内容。
我相信Hadoop应该是ETL工具。这就是我们正在使用它。我们每小时处理一次日志文件并将其存储在Hive中,并进行每日聚合,这些聚合将加载到MSSQL服务器并通过可视化层进行查看。
我遇到的主要设计考虑因素是:
- 数据灵活性:您是否希望用户查看预先汇总的数据,或者是否可以灵活地调整查询并查看数据的方式
- 速度:您希望用户等待数据多长时间? Hive(例如)很慢。生成结果需要几分钟,即使在相当小的数据集上也是如此。遍历的数据越大,生成结果所需的时间越长
- 可视化:您想要使用哪种类型的可视化?你想自定义制作很多作品还是能够使用现成的东西?您的可视化需要什么样的限制和灵活性?可视化需要多么灵活和多变?
HTH
更新:作为回应@Bhat的评论,询问缺乏可视化......
缺乏可视化工具可以让我们有效地利用存储在HBase中的数据,这是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在Hive中,并预先聚合数据并将其存储在HBase中。为了利用这个,我们将不得不编写一个自定义连接器(做这个部分)和可视化层。我们研究了我们能够生产什么和商业化的东西,并走上了商业路线
我们仍然使用Hadoop作为我们的ETL工具来处理我们的博客,这非常棒。我们只是将ETL的原始数据发送到商业大数据数据库,该数据库将取代我们设计中的Hive和HBase。
Hadoop并不真正与MSSQL或其他数据仓库存储进行比较。 Hadoop不做任何存储(忽略HDFS),它处理数据。运行MapReduces(Hive所做的)将比MSSQL(或类似)慢。
答案 2 :(得分:0)
从业务角度来看,如果您拥有大量低价值数据,则应考虑使用Hadoop。在许多情况下,RDBMS / MPP解决方案不具有成本效益。 如果您的数据不是结构化的(例如HTML),您还应该将Hadoop视为一个严肃的选择。
答案 3 :(得分:0)
我们正在为Big Data / Hadoop的BI工具创建比较矩阵 http://hadoopilluminated.com/hadoop_book/BI_Tools_For_Hadoop.html
这项工作正在进行中,并且非常喜欢任何意见。
(免责声明:我是这本在线图书的作者)