我过去一个月一直在研究Apache Hive,我找到的所有文章都说明了什么是Hive(由Apache提供),如何安装以及如何在其中创建表格
我从来没有发现任何东西说明它在行业中的实际用途,即使是在一个小型品牌公司。
与其他数据仓库/数据库相比,Hive在行业中真的不那么受欢迎吗?
答案 0 :(得分:0)
Apache Hive是第一个“SQL on Hadoop”框架,可将您的SQL查询转换为Map-Reduce作业。
它更适用于批处理类型的处理,而不是交互式响应时间。 (我会在本讨论之外留下更多Hive on Spark,Hive on Tez等)
我们使用Hive(以及Spark)在ELT管道中将我们的原始数据集摄取并转换为“数据存储库”,然后在我们的Hadoop环境中进一步转换为数据集市。对于那些桌子我们几乎在Parquet上标准化了。
对于BI仪表板,Impala正在查询这些数据集市。其他一些生产作业使用Spark SQL。 Impala和Spark SQL都是另一种“Hadoop上的SQL”方言(就像Hive一样),可以用来访问“大数据”/ hadoop数据集。
话虽这么说,我们仍然在同一个项目中使用更多的传统数据仓库(在我们的例子中使用Oracle),但我们只能在那里推送数据子集(因为这些传统方法的大小/性能限制)。
对于你的问题“即使在一个小品牌公司” - 我认为如果关键词在这里“小”,那么你不一定需要Hive(以及任何其他“大数据”技术)。如果数据集很小并且不一定需要更具可扩展性的大数据技术,那么在使用更传统的数据库进行开发工作时,您应该没问题,甚至可能更高效。
答案 1 :(得分:0)
我们在Tez上使用Hive以及其他工具,如Spark,sqoop等,以便ETL在15Pb仓库中构建数据集市。
我从来没有能够在一些数据库的单个查询中加入500亿行数据,但Hive。 Hive几乎可以无限扩展。