应用错误收集

时间：2014-02-18 15:46:15

标签： hadoop hive pentaho business-intelligence apache-spark

目前我正在商业智能和大数据领域开展一个项目，其中有两个领域，我很新，非常环保。

我计划使用MongoDB构建一个Hive Datawarehouse，并将其与Pentaho等商业智能平台连接起来。在研究时，我遇到了Spark并且对它的Shark模块产生了兴趣，因为它具有内存功能并且在进行查询时性能提升。

我知道我可以将Hive连接到Pentaho，但我想知道的是我是否可以在它们之间使用Shark查询来获得性能？如果没有，是否有人知道任何其他可以允许的BI平台？

正如我所说，我在这方面相当新，所以请随意纠正我，因为很有可能让我有一些概念混淆并说了一些愚蠢的话。

答案 0 :(得分：0)

我认为您应该使用MongoDB使用Hive或MongoDB Datawarehouse构建Hive Datawarehouse。我不明白你将如何混合它们，但无论如何我都会尝试回答这个问题。

通常，为BI工具配置您选择的DB的JDBC驱动程序（例如Hive），BI工具使用该JDBC驱动程序获取数据。驱动程序从DB获取数据的方式对于BI工具完全透明。

因此，您可以使用Hive，Shark或JDBC驱动程序附带的任何其他DB。

我可以用这种方式总结你的选择：

Hive：最完整的功能集，是最兼容的工具。可以在普通数据上使用，或者可以将数据ETL转换为其ORC格式提升性能。

Impala：声称比Hive更快但功能设置不完整。可以在普通数据上使用，或者，可以将数据ETL转换为Parquet格式，提升性能。

鲨鱼：前沿，而不是主流。性能取决于您的数据的百分比可以适合群集中的RAM。

答案 1 :(得分：-1)

首先，Shark被Spark SQL吸收。 SparkSQL提供JDBC / ODBC连接器。这应该允许您将其与大多数现有平台集成。