商业智能中的火花

时间:2014-02-18 15:46:15

标签: hadoop hive pentaho business-intelligence apache-spark

目前我正在商业智能和大数据领域开展一个项目,其中有两个领域,我很新,非常环保。

我计划使用MongoDB构建一个Hive Datawarehouse,并将其与Pentaho等商业智能平台连接起来。在研究时,我遇到了Spark并且对它的Shark模块产生了兴趣,因为它具有内存功能并且在进行查询时性能提升。

我知道我可以将Hive连接到Pentaho,但我想知道的是我是否可以在它们之间使用Shark查询来获得性能?如果没有,是否有人知道任何其他可以允许的BI平台?

正如我所说,我在这方面相当新,所以请随意纠正我,因为很有可能让我有一些概念混淆并说了一些愚蠢的话。

2 个答案:

答案 0 :(得分:0)

我认为您应该使用MongoDB使用Hive或MongoDB Datawarehouse构建Hive Datawarehouse。我不明白你将如何混合它们,但无论如何我都会尝试回答这个问题。

通常,为BI工具配置您选择的DB的JDBC驱动程序(例如Hive),BI工具使用该JDBC驱动程序获取数据。驱动程序从DB获取数据的方式对于BI工具完全透明。

因此,您可以使用Hive,Shark或JDBC驱动程序附带的任何其他DB。

我可以用这种方式总结你的选择:

Hive:最完整的功能集,是最兼容的工具。可以在普通数据上使用,或者可以将数据ETL转换为其ORC格式提升性能。

Impala:声称比Hive更快但功能设置不完整。可以在普通数据上使用,或者,可以将数据ETL转换为Parquet格式,提升性能。

鲨鱼:前沿,而不是主流。性能取决于您的数据的百分比可以适合群集中的RAM。

答案 1 :(得分:-1)

首先,Shark被Spark SQL吸收。 SparkSQL提供JDBC / ODBC连接器。这应该允许您将其与大多数现有平台集成。