目前我正在商业智能和大数据领域开展一个项目,其中有两个领域,我很新,非常环保。
我计划使用MongoDB构建一个Hive Datawarehouse,并将其与Pentaho等商业智能平台连接起来。在研究时,我遇到了Spark并且对它的Shark模块产生了兴趣,因为它具有内存功能并且在进行查询时性能提升。
我知道我可以将Hive连接到Pentaho,但我想知道的是我是否可以在它们之间使用Shark查询来获得性能?如果没有,是否有人知道任何其他可以允许的BI平台?
正如我所说,我在这方面相当新,所以请随意纠正我,因为很有可能让我有一些概念混淆并说了一些愚蠢的话。
答案 0 :(得分:0)
我认为您应该使用MongoDB使用Hive或MongoDB Datawarehouse构建Hive Datawarehouse。我不明白你将如何混合它们,但无论如何我都会尝试回答这个问题。
通常,为BI工具配置您选择的DB的JDBC驱动程序(例如Hive),BI工具使用该JDBC驱动程序获取数据。驱动程序从DB获取数据的方式对于BI工具完全透明。
因此,您可以使用Hive,Shark或JDBC驱动程序附带的任何其他DB。
我可以用这种方式总结你的选择:
Hive:最完整的功能集,是最兼容的工具。可以在普通数据上使用,或者可以将数据ETL转换为其ORC格式提升性能。
Impala:声称比Hive更快但功能设置不完整。可以在普通数据上使用,或者,可以将数据ETL转换为Parquet格式,提升性能。
鲨鱼:前沿,而不是主流。性能取决于您的数据的百分比可以适合群集中的RAM。
答案 1 :(得分:-1)
首先,Shark被Spark SQL吸收。 SparkSQL提供JDBC / ODBC连接器。这应该允许您将其与大多数现有平台集成。