Apace Drill阅读gz和活泼的表现

时间:2016-09-07 11:37:07

标签: hadoop apache-spark hdfs parquet apache-drill

我正在使用Apache Drill 1.8。对于测试海豚,我用.csv制作了两个木地板文件。 CSV大约4GB,镶木地板带有gz编解码器120MB,第二块镶木地板带有snappy编解码器,大约250GB。

由于Spark使用snappy作为默认编解码器,并且snappy应该通过性能更快地面对一个问题。

这是我在Hadoop上使用块大小等的文件:

  1. 使用snappy编解码器: enter image description here

  2. 使用gz编解码器: enter image description here

  3. 我尝试在Drill中查询(默认情况下snappy编解码器)snappy编解码器上的镶木地板文件大约是18秒。 我尝试使用相同的查询在gz编解码器上查询钻石拼花文件时的时间大约是8秒。

    (选择5列的简单查询,按一个排序并限制一个列)

    我现在有点困惑。 I / O的效率是否更高?我在某处犯了错误,或者这是它的工作原理。 如果有人能解释我,我会非常感激,因为我在网上找不到任何有用的东西。 再次感谢你!

1 个答案:

答案 0 :(得分:0)

在您的原始帖子中,您说带有活泼文件的镶木地板为250 GB,您的意思是250 MB?

至少对于HDFS,您希望实木复合地板文件的大小(行组)等于块大小。您可能有问题,因为块大小为128 MB,文件大小为250 MB。