火花读取文件上的蜂巢

时间:2017-07-20 15:33:52

标签: hadoop apache-spark hive hiveql

我在Spark上使用Hive。我在Hadoop中压缩了日志文件。它们的大小平均为40 MB,而块大小为128 MB。我相信如果我以某种方式连接日志文件,我将拥有更少的块,并且数据读取时间将减少。例如。我每小时都有日志文件(每天24个文件 - > 24个块)。在聚合之后,我有6个块中的1个文件(24小时)。

我使用Hive运行基准测试,并注意到连接后的阅读时间和查询执行时间比6次增加了。

问题:我对Spark上的Hadoop-Hive的看法有什么问题?

1 个答案:

答案 0 :(得分:2)

Gzipped text files are not split-able
您的原始数据由多个映射器读取 您的合并数据正由一个映射器读取。