应用错误收集

Apache Hive是第一个“SQL on Hadoop”框架，可将您的SQL查询转换为Map-Reduce作业。

它更适用于批处理类型的处理，而不是交互式响应时间。（我会在本讨论之外留下更多Hive on Spark，Hive on Tez等）

我们使用Hive（以及Spark）在ELT管道中将我们的原始数据集摄取并转换为“数据存储库”，然后在我们的Hadoop环境中进一步转换为数据集市。对于那些桌子我们几乎在Parquet上标准化了。

对于BI仪表板，Impala正在查询这些数据集市。其他一些生产作业使用Spark SQL。 Impala和Spark SQL都是另一种“Hadoop上的SQL”方言（就像Hive一样），可以用来访问“大数据”/ hadoop数据集。

话虽这么说，我们仍然在同一个项目中使用更多的传统数据仓库（在我们的例子中使用Oracle），但我们只能在那里推送数据子集（因为这些传统方法的大小/性能限制）。

对于你的问题“即使在一个小品牌公司” - 我认为如果关键词在这里“小”，那么你不一定需要Hive（以及任何其他“大数据”技术）。如果数据集很小并且不一定需要更具可扩展性的大数据技术，那么在使用更传统的数据库进行开发工作时，您应该没问题，甚至可能更高效。

我们在Tez上使用Hive以及其他工具，如Spark，sqoop等，以便ETL在15Pb仓库中构建数据集市。

我从来没有能够在一些数据库的单个查询中加入500亿行数据，但Hive。 Hive几乎可以无限扩展。