应用错误收集

我正在使用Apache Drill 1.8。对于测试海豚，我用.csv制作了两个木地板文件。 CSV大约4GB，镶木地板带有gz编解码器120MB，第二块镶木地板带有snappy编解码器，大约250GB。

由于Spark使用snappy作为默认编解码器，并且snappy应该通过性能更快地面对一个问题。

这是我在Hadoop上使用块大小等的文件：

我尝试在Drill中查询（默认情况下snappy编解码器）snappy编解码器上的镶木地板文件大约是18秒。我尝试使用相同的查询在gz编解码器上查询钻石拼花文件时的时间大约是8秒。

（选择5列的简单查询，按一个排序并限制一个列）

我现在有点困惑。 I / O的效率是否更高？我在某处犯了错误，或者这是它的工作原理。如果有人能解释我，我会非常感激，因为我在网上找不到任何有用的东西。再次感谢你！