应用错误收集

为什么在HDFS中使用Spark的第一读总是更长？

时间：2018-08-03 09:21:34

标签： apache-spark hdfs parquet

我正在尝试测量csv和镶有火花的镶木地板之间的读取时间差。我知道镶木地板速度更快，但我需要为报告提供一些指标。我注意到，当我陆续读取文件时，第一个文件总是更长，如以下屏幕截图所示。

实木复合地板优先：

csv首先：

我不明白为什么，请您解释一下？

0 个答案:

没有答案